En el ámbito de la investigación académica, la búsqueda de literatura es una tarea compleja e importante para la obtención de información. Los investigadores necesitan capacidad de búsqueda en campos de conocimiento especializados y complejos para satisfacer las necesidades de investigación detalladas. Sin embargo, las plataformas de búsqueda académica existentes, como Google Scholar, a menudo tienen dificultades para gestionar estas consultas de investigación complejas. Por ejemplo, una consulta especializada sobre aprendizaje por refuerzo no estacionario utilizando el método UCB requiere una mayor capacidad de cálculo y análisis. Además, los investigadores suelen dedicar mucho tiempo y esfuerzo a examinar manualmente las extensas bases de datos académicas al realizar revisiones bibliográficas.
A pesar de que se han realizado varias investigaciones sobre la aplicación de los modelos lingüísticos grandes (LLM) en la búsqueda de artículos académicos y el descubrimiento científico, las herramientas de búsqueda tradicionales siguen sin poder satisfacer las complejas necesidades de investigación especializada. Muchas investigaciones se centran en el desarrollo de agentes LLM mediante técnicas de optimización de marcos y de ingeniería de prompts. Aunque métodos como el marco AGILE RL han mejorado significativamente las capacidades generales de los agentes, aún no se ha encontrado una solución de búsqueda de artículos académicos autónoma y precisa, lo que supone una importante laguna en la investigación.
Recientemente, los investigadores del Instituto de ByteDance y la Universidad de Pekín presentaron PaSa, un innovador agente de búsqueda de artículos basado en LLM. PaSa puede ejecutar de forma autónoma estrategias de búsqueda complejas, incluyendo la llamada a herramientas, la lectura de artículos y la selección de referencias, con el objetivo de generar resultados completos y precisos para consultas académicas complejas. Para optimizar el rendimiento de PaSa, el equipo de investigación creó AutoScholarQuery, un conjunto de datos sintéticos que contiene 35.000 consultas académicas de grano fino, y estableció RealScholarQuery como un punto de referencia para evaluar el rendimiento real del agente. El sistema utiliza técnicas de aprendizaje por refuerzo para mejorar la capacidad de búsqueda, resolviendo las principales limitaciones de los métodos de búsqueda académica existentes.
El sistema PaSa consta de dos agentes LLM: un rastreador (Crawler) y un selector (Selector), que trabajan juntos para realizar una búsqueda exhaustiva de artículos académicos. El rastreador analiza primero la consulta del usuario para generar varias consultas de búsqueda detalladas con el fin de obtener artículos relevantes y añadirlos a una cola de artículos específica. El rastreador procesa cada artículo en cola, identifica y explora las citas clave que podrían ampliar el alcance de la investigación, y añade dinámicamente nuevos artículos relevantes descubiertos a la lista. A continuación, el selector evalúa si cada artículo cumple los requisitos de la consulta original.
Los resultados experimentales muestran que PaSa-7b ofrece un rendimiento superior en varias pruebas de referencia. En el conjunto de pruebas AutoScholarQuery, PaSa-7b mejoró la tasa de recuperación en un 9,64% en comparación con PaSa-GPT-4o. En las pruebas de referencia basadas en Google, la mejora de la tasa de recuperación de PaSa-7b osciló entre el 33,80% y el 42,64%. En el escenario más desafiante de RealScholarQuery, PaSa-7b mostró una mejora del 30,36% en la tasa de recuperación y del 4,25% en la precisión.
En resumen, el lanzamiento de PaSa representa un importante avance en la tecnología de búsqueda de artículos académicos, ofreciendo una solución eficaz para la recuperación de información en la investigación académica. Mediante la combinación de modelos lingüísticos grandes y técnicas de aprendizaje por refuerzo, PaSa reduce considerablemente el tiempo y el esfuerzo que dedican los investigadores a las revisiones bibliográficas, y les proporciona una herramienta eficiente para gestionar el cada vez más amplio y complejo entorno de la literatura académica.
Código: https://github.com/bytedance/pasa
Artículo: https://arxiv.org/abs/2501.10120
Puntos clave:
📄 **PaSa es un agente inteligente de búsqueda de artículos académicos desarrollado conjuntamente por ByteDance y los investigadores de la Universidad de Pekín.**
🤖 **El sistema consta de dos agentes LLM, un rastreador y un selector, capaces de ejecutar de forma autónoma estrategias de búsqueda complejas.**
🏆 **Los resultados experimentales muestran que PaSa-7b supera a los métodos de búsqueda existentes en varias pruebas de referencia, mejorando significativamente la eficiencia y la precisión de la búsqueda de artículos.**