Na área de pesquisa acadêmica, a recuperação de literatura é uma tarefa complexa e crucial para a obtenção de informações. Os pesquisadores precisam lidar com capacidades de busca complexas e especializadas para atender às demandas rigorosas de pesquisa. No entanto, as plataformas de busca acadêmica existentes, como o Google Acadêmico, frequentemente enfrentam dificuldades em lidar com essas consultas de pesquisa complexas. Por exemplo, consultas especializadas sobre aprendizado de reforço não estacionário usando o método UCB exigem maior capacidade computacional e analítica. Além disso, pesquisadores gastam muito tempo e esforço revisando manualmente grandes bancos de dados acadêmicos durante revisões de literatura.
Embora várias pesquisas explorem o uso de modelos de linguagem grandes (LLMs) na recuperação de artigos acadêmicos e descoberta científica, as ferramentas de busca tradicionais ainda têm dificuldades em atender às necessidades complexas de pesquisas especializadas. Muitos estudos se concentram no desenvolvimento de agentes LLM por meio de otimização de frameworks e técnicas de engenharia de prompts. Embora métodos como o framework AGILE RL tenham melhorado significativamente as capacidades gerais dos agentes, ainda não há uma solução autônoma e precisa para a recuperação de artigos acadêmicos, o que representa uma lacuna significativa na pesquisa.
Recentemente, pesquisadores do ByteDance Institute e da Universidade de Pequim apresentaram o PaSa, um agente de busca de artigos baseado em LLM inovador. O PaSa pode executar autonomamente estratégias de busca complexas, incluindo chamadas de ferramentas, leitura de artigos e seleção de referências, com o objetivo de gerar resultados completos e precisos para consultas acadêmicas complexas. Para otimizar o desempenho do PaSa, a equipe de pesquisa criou o AutoScholarQuery, um conjunto de dados sintético contendo 35.000 consultas acadêmicas granulares, e estabeleceu o RealScholarQuery como um benchmark para avaliar o desempenho real do agente. O sistema utiliza técnicas de aprendizado por reforço para aprimorar a capacidade de busca, resolvendo as principais limitações dos métodos de busca acadêmica existentes.
O sistema PaSa consiste em dois agentes LLM: um rastreador (Crawler) e um seletor (Selector), que trabalham em conjunto para executar uma busca completa de artigos acadêmicos. O rastreador analisa primeiro a consulta do usuário para gerar várias consultas de busca refinadas para obter artigos relevantes e adicioná-los a uma fila dedicada de artigos. O rastreador processa cada artigo na fila, identifica e explora citações-chave que podem expandir o escopo da pesquisa e adiciona dinamicamente novos artigos relevantes à lista. Em seguida, o seletor avalia se cada artigo atende aos requisitos da consulta original.
Os resultados experimentais mostram que o PaSa-7b superou outros modelos em vários testes de benchmark. No conjunto de testes AutoScholarQuery, o PaSa-7b apresentou uma melhoria de 9,64% na taxa de recall em comparação com o PaSa-GPT-4o. Em relação a benchmarks baseados no Google, a melhoria na taxa de recall do PaSa-7b variou entre 33,80% e 42,64%. Em cenários mais desafiadores do RealScholarQuery, o PaSa-7b apresentou uma melhoria de 30,36% na taxa de recall e 4,25% na precisão.
Em resumo, o lançamento do PaSa representa um avanço significativo na tecnologia de busca de artigos acadêmicos, oferecendo uma solução eficaz para a recuperação de informações em pesquisas acadêmicas. Ao combinar modelos de linguagem grandes e técnicas de aprendizado por reforço, o PaSa reduz significativamente o tempo e o esforço gastos pelos pesquisadores em revisões de literatura, fornecendo uma ferramenta eficiente para lidar com o ambiente cada vez mais vasto e complexo de literatura acadêmica.
Código: https://github.com/bytedance/pasa
Artigo: https://arxiv.org/abs/2501.10120
Destaques:
📄 **PaSa é um agente inteligente de busca de artigos acadêmicos desenvolvido em conjunto pelo ByteDance e pesquisadores da Universidade de Pequim.**
🤖 **O sistema consiste em dois agentes LLM, um rastreador e um seletor, capazes de executar autonomamente estratégias de busca complexas.**
🏆 **Os resultados experimentais demonstram que o PaSa-7b supera os métodos de busca existentes em vários testes de benchmark, melhorando significativamente a eficiência e a precisão da recuperação de artigos.**