在学术研究领域,文献检索是一项复杂且重要的信息获取任务。研究人员需要能够处理复杂的、专业知识领域的检索能力,以满足细致的研究需求。然而,现有的学术搜索平台,如谷歌学术,往往难以应对这些复杂的研究查询。例如,针对使用 UCB 方法的非平稳强化学习的专业查询,需要更强的计算和分析能力。此外,研究人员在进行文献综述时,通常需要耗费大量的时间和精力手动浏览庞大的学术数据库。

image.png

尽管已有多项研究探讨了大型语言模型(LLMs)在学术论文检索和科学发现中的应用,但传统的搜索工具仍然难以满足复杂的专业研究需求。许多研究集中于通过优化框架和提示工程技术开发 LLM 代理,虽然 AGILE RL 框架等方法已显著提升了代理的综合能力,但仍未找到一种自主且精确的学术论文检索解决方案,这为研究带来了较大空白。

近日,字节跳动研究院与北京大学的研究人员联合提出了 PaSa,这是一种创新的基于 LLM 的论文搜索代理。PaSa 能自主执行复杂的搜索策略,包括工具调用、论文阅读和参考选择,旨在为复杂的学术查询生成全面且准确的结果。为了优化 PaSa 的性能,研究团队创建了 AutoScholarQuery,一个包含35,000个细粒度学术查询的合成数据集,并建立了 RealScholarQuery 作为评估代理实际性能的基准。该系统利用强化学习技术来增强搜索能力,解决了现有学术搜索方法中的主要局限性。

PaSa 系统由两个 LLM 代理组成:爬虫(Crawler)和选择器(Selector),它们协同工作以执行全面的学术论文搜索。爬虫首先分析用户的查询,以生成多个精细的搜索查询来获取相关论文,并将这些论文添加到专用的论文队列中。爬虫会对每篇排队的论文进行处理,识别和探索可能拓展研究范围的关键引用,并动态地将新发现的相关论文添加到列表中。然后,选择器将评估每篇论文是否符合原始查询要求。

实验结果显示,PaSa-7b 在多个基准测试中表现优越。在 AutoScholarQuery 测试集上,PaSa-7b 相比 PaSa-GPT-4o 在召回率上提高了9.64%。而在面对基于谷歌的基准时,PaSa-7b 的召回率提升幅度在33.80% 到42.64% 之间。在更具挑战性的 RealScholarQuery 场景中,PaSa-7b 更是展现出30.36% 的召回率提升和4.25% 的精确度提升。

总的来说,PaSa 的推出标志着学术论文搜索技术的一次重要进步,为学术研究的信息检索提供了有效的解决方案。通过结合大型语言模型和强化学习技术,PaSa 极大地减少了研究人员在文献综述中花费的时间和精力,同时也为他们提供了一种高效的工具,以应对日益庞大和复杂的学术文献环境。

代码:https://github.com/bytedance/pasa

论文:https://arxiv.org/abs/2501.10120

划重点:  

📄 **PaSa 是字节跳动与北京大学研究人员联合推出的一款智能学术论文搜索代理。**  

🤖 ** 该系统由爬虫和选择器两个 LLM 代理组成,能够自主执行复杂的搜索策略。**  

🏆 ** 实验结果表明,PaSa-7b 在多个基准测试中均表现优于现有的搜索方法,显著提高了论文检索的效率和准确性。**