Dans le domaine de la recherche académique, la recherche documentaire est une tâche complexe et essentielle pour l'acquisition d'informations. Les chercheurs doivent pouvoir gérer des recherches complexes dans des domaines spécialisés afin de répondre à des besoins de recherche précis. Cependant, les plateformes de recherche académique existantes, telles que Google Scholar, peinent souvent à répondre à ces requêtes complexes. Par exemple, une requête spécialisée concernant l'apprentissage par renforcement non stationnaire utilisant la méthode UCB nécessite des capacités de calcul et d'analyse plus importantes. De plus, les chercheurs consacrent généralement beaucoup de temps et d'efforts à parcourir manuellement les vastes bases de données académiques lors de la réalisation de synthèses bibliographiques.

image.png

Bien que de nombreuses études aient exploré l'application des grands modèles de langage (LLM) à la recherche d'articles académiques et aux découvertes scientifiques, les outils de recherche traditionnels restent inadaptés aux besoins de recherche spécialisés complexes. De nombreuses recherches se concentrent sur le développement d'agents LLM grâce à l'optimisation des cadres et des techniques d'ingénierie des invites. Bien que des méthodes comme le cadre AGILE RL aient considérablement amélioré les capacités globales des agents, aucune solution de recherche d'articles académiques autonome et précise n'a été trouvée, ce qui représente une lacune importante pour la recherche.

Récemment, les chercheurs de ByteDance Institute et de l'Université de Pékin ont proposé PaSa, un agent de recherche d'articles basé sur LLM innovant. PaSa peut exécuter de manière autonome des stratégies de recherche complexes, notamment l'appel d'outils, la lecture d'articles et la sélection de références, dans le but de générer des résultats complets et précis pour des requêtes académiques complexes. Pour optimiser les performances de PaSa, l'équipe de recherche a créé AutoScholarQuery, un ensemble de données synthétiques contenant 35 000 requêtes académiques granulaires, et a établi RealScholarQuery comme référence pour évaluer les performances réelles de l'agent. Le système utilise des techniques d'apprentissage par renforcement pour améliorer les capacités de recherche, résolvant ainsi les principales limitations des méthodes de recherche académique existantes.

Le système PaSa est composé de deux agents LLM : un crawler (robot d'exploration) et un sélecteur, qui travaillent ensemble pour effectuer une recherche complète d'articles académiques. Le crawler analyse d'abord la requête de l'utilisateur afin de générer plusieurs requêtes de recherche granulaires pour récupérer les articles pertinents et les ajoute à une file d'attente d'articles dédiée. Le crawler traite chaque article en file d'attente, identifie et explore les références clés qui pourraient élargir la portée de la recherche, et ajoute dynamiquement les nouveaux articles pertinents découverts à la liste. Ensuite, le sélecteur évalue si chaque article répond aux exigences de la requête initiale.

Les résultats expérimentaux montrent que PaSa-7b surpasse les autres modèles dans plusieurs tests de référence. Sur l'ensemble de test AutoScholarQuery, PaSa-7b a amélioré le taux de rappel de 9,64 % par rapport à PaSa-GPT-4o. Face à une référence basée sur Google, l'amélioration du taux de rappel de PaSa-7b se situe entre 33,80 % et 42,64 %. Dans le scénario plus difficile de RealScholarQuery, PaSa-7b affiche même une amélioration du taux de rappel de 30,36 % et une amélioration de la précision de 4,25 %.

En résumé, le lancement de PaSa marque une avancée importante dans la technologie de recherche d'articles académiques, offrant une solution efficace à la recherche d'informations pour la recherche académique. En combinant les grands modèles de langage et les techniques d'apprentissage par renforcement, PaSa réduit considérablement le temps et les efforts consacrés par les chercheurs aux synthèses bibliographiques, tout en leur fournissant un outil efficace pour faire face à un environnement de littérature académique de plus en plus vaste et complexe.

Code : https://github.com/bytedance/pasa

Article : https://arxiv.org/abs/2501.10120

Points clés :

📄 **PaSa est un agent intelligent de recherche d'articles académiques développé conjointement par ByteDance et des chercheurs de l'Université de Pékin.**

🤖 **Ce système est composé de deux agents LLM, un crawler et un sélecteur, capables d'exécuter de manière autonome des stratégies de recherche complexes.**

🏆 **Les résultats expérimentaux montrent que PaSa-7b surpasse les méthodes de recherche existantes dans plusieurs tests de référence, améliorant considérablement l'efficacité et la précision de la recherche d'articles.**