Travailler tard sur une synthèse bibliographique ? Se creuser la tête pour rédiger un article ? Pas de panique ! Les grands chercheurs d'AI2 arrivent à votre rescousse avec leur dernier chef-d’œuvre, OpenScholar ! Cet outil révolutionnaire pour la recherche scientifique rendra la rédaction de synthèses bibliographiques aussi facile et agréable qu'une promenade au parc !

L'arme secrète d'OpenScholar ? OpenScholar-Datastore (OSDS), une base de données contenant 450 millions d'articles en accès libre et 237 millions de segments d'articles intégrés. Grâce à cette incroyable réserve de connaissances, OpenScholar peut gérer aisément les défis de la recherche scientifique.

Face à un problème de recherche, OpenScholar déploie ses meilleurs atouts : un moteur de recherche et un algorithme de reclassement qui filtrent rapidement les segments d'articles pertinents dans OSDS. Ensuite, un modèle linguistique (ML) fournit une réponse complète incluant les références. Plus impressionnant encore, OpenScholar améliore constamment ses réponses en fonction de vos commentaires en langage naturel, en complétant les informations manquantes jusqu'à ce que vous soyez satisfait.

image.png

OpenScholar est non seulement puissant en lui-même, mais il contribue également à l'entraînement de modèles plus petits et plus efficaces. Les chercheurs ont utilisé le processus d'OpenScholar pour générer une quantité massive de données d'entraînement de haute qualité, utilisées pour entraîner un modèle linguistique de 8 milliards de paramètres appelé OpenScholar-8B, ainsi que d'autres modèles de recherche.

Pour tester pleinement les capacités d'OpenScholar, les chercheurs ont créé un nouveau banc d'essai nommé SCHOLARQABENCH. Ce banc d'essai propose diverses tâches de synthèse bibliographique scientifique, notamment la classification fermée, les questions à choix multiples et la génération de longs textes, couvrant des domaines tels que l'informatique, la biomédecine, la physique et les neurosciences. Pour garantir l'équité et l'impartialité de la compétition, SCHOLARQABENCH utilise des méthodes d'évaluation multiformes, incluant l'examen par des experts, des indicateurs automatiques et des tests d'expérience utilisateur.

Après plusieurs rounds de compétition acharnée, OpenScholar s'est imposé ! Les résultats expérimentaux montrent qu'il excelle dans toutes les tâches, surpassant même les experts humains ! Cette avancée révolutionnaire va bouleverser le monde de la recherche scientifique, permettant aux chercheurs de se libérer du fardeau des synthèses bibliographiques pour se concentrer sur l'exploration des mystères de la science !

image.png

La puissance d'OpenScholar repose principalement sur son mécanisme unique d'inférence améliorée par la recherche et l'auto-rétroaction. En termes simples, il se pose des questions à lui-même, améliore ses réponses en fonction de ses propres évaluations, puis vous présente la réponse la plus aboutie. Magique, n'est-ce pas ?

Plus précisément, le processus d'inférence auto-rétroactive d'OpenScholar se déroule en trois étapes : génération de la réponse initiale, génération de la rétroaction et intégration de la rétroaction. Tout d'abord, le modèle linguistique génère une réponse initiale à partir des segments d'articles récupérés. Ensuite, il se comporte comme un examinateur rigoureux, critiquant sa propre réponse, identifiant ses faiblesses et générant des commentaires en langage naturel, par exemple : « La réponse ne contient que les résultats expérimentaux de la tâche de questions-réponses, veuillez ajouter les résultats d'autres types de tâches ». Enfin, le modèle linguistique utilise ces commentaires pour rechercher à nouveau les documents pertinents et intègre toutes les informations pour générer une réponse plus complète.

Afin d'entraîner des modèles plus petits mais tout aussi performants, les chercheurs ont également utilisé le processus d'inférence auto-rétroactive d'OpenScholar pour générer une grande quantité de données d'entraînement de haute qualité. Ils ont d'abord sélectionné les articles les plus cités dans la base de données, puis ont généré des questions d'information basées sur les résumés de ces articles, avant d'utiliser le processus d'inférence d'OpenScholar pour générer des réponses de haute qualité. Ces réponses et les informations de rétroaction intermédiaires constituent des données d'entraînement précieuses. Les chercheurs ont combiné ces données avec des données d'ajustement fin des instructions dans des domaines généraux et scientifiques existants pour entraîner un modèle linguistique de 8 milliards de paramètres appelé OpenScholar-8B.

Pour évaluer plus complètement les performances d'OpenScholar et d'autres modèles similaires, les chercheurs ont également créé un nouveau test de référence appelé SCHOLARQABENCH. Ce test de référence comprend 2967 questions de synthèse bibliographique rédigées par des experts, couvrant quatre domaines : l'informatique, la physique, la biomédecine et les neurosciences. Chaque question possède une réponse longue rédigée par des experts, chaque réponse nécessitant en moyenne environ une heure de travail d'un expert. SCHOLARQABENCH utilise également une méthode d'évaluation multiforme, combinant des indicateurs automatiques et une évaluation humaine, permettant une mesure plus complète de la qualité des réponses générées par le modèle.

Les résultats expérimentaux montrent qu'OpenScholar surpasse de loin les autres modèles sur SCHOLARQABENCH, et même dans certains cas, dépasse les experts humains ! Par exemple, dans le domaine de l'informatique, le taux de précision d'OpenScholar-8B est supérieur de 5 % à celui de GPT-4o et de 7 % à celui de PaperQA2. De plus, la précision des citations des réponses générées par OpenScholar est comparable à celle des experts humains, tandis que GPT-4o affiche un taux de fabrication de 78 à 90 %.

L'arrivée d'OpenScholar est sans aucun doute une excellente nouvelle pour le monde de la recherche ! Il permet non seulement aux chercheurs de gagner un temps précieux et d'économiser des efforts, mais il améliore également la qualité et l'efficacité des synthèses bibliographiques. Nous pensons qu'à l'avenir, OpenScholar deviendra un assistant indispensable pour les chercheurs !

Adresse de l'article : https://arxiv.org/pdf/2411.14199

Adresse du projet : https://github.com/AkariAsai/OpenScholar