Lors d'une conférence de presse le 19 décembre 2024, l'Institut de recherche sur l'intelligence artificielle (AIRS) et Tencent ont annoncé le lancement de LongBench v2, un benchmark spécialement conçu pour évaluer la compréhension approfondie et les capacités de raisonnement des grands modèles de langage (LLM) dans des tâches multitâches sur de longs textes réels. Cette plateforme vise à stimuler les progrès des modèles de texte long en matière de compréhension et de raisonnement, répondant ainsi aux défis actuels posés par les LLM de texte long dans les applications.
LongBench v2 se caractérise notamment par sa prise en charge de textes plus longs, allant de 8 000 à 2 millions de mots, et comprend 503 questions à choix multiples (quatre options) difficiles. La difficulté est telle que même les experts humains n'atteignent qu'une précision moyenne de 53,7 % en 15 minutes. De plus, ce benchmark couvre six catégories de tâches principales, notamment la question-réponse sur un seul document, la question-réponse sur plusieurs documents et l'apprentissage contextuel sur de longs textes, garantissant ainsi une large couverture des scénarios d'application.
Pour garantir la fiabilité de l'évaluation, toutes les questions de LongBench v2 sont présentées sous forme de questions à choix multiples et ont fait l'objet d'un processus strict d'annotation et de vérification manuelle. Des annotateurs issus des meilleures universités ont été recrutés pour la collecte de données, assurant ainsi la qualité et la difficulté des questions. Grâce à l'introduction de variables de contrôle, LongBench v2 a amélioré l'algorithme statistique Bradley-Terry original, réduisant ainsi l'influence des facteurs de confusion et rendant le classement des modèles plus scientifique et précis.
En termes de résultats d'évaluation, l'équipe de recherche a testé 10 LLM open source et 6 LLM propriétaires. Elle a constaté qu'après l'introduction de variables de contrôle, les performances des modèles se sont considérablement améliorées. En particulier, le modèle GPT-4o, après l'introduction de plus d'étapes de raisonnement, a excellé dans des tâches telles que la question-réponse sur plusieurs documents et l'apprentissage contextuel sur de longs textes, démontrant ainsi l'importance des capacités de raisonnement.
Le lancement de LongBench v2 fournit non seulement un nouvel outil d'évaluation pour les grands modèles de langage, mais il ouvre également de nouvelles perspectives pour la recherche future, soulignant l'importance d'améliorer les capacités de compréhension et de raisonnement intrinsèques des modèles. La collaboration entre l'Institut de recherche sur l'intelligence artificielle et Tencent marque une nouvelle étape dans le développement des technologies de l'IA. Nous espérons que ce benchmark permettra de faire progresser les technologies de compréhension et de raisonnement sur les longs textes.
Page d'accueil : https://longbench2.github.io
Article : https://arxiv.org/abs/2412.15204
Données et code : https://github.com/THUDM/LongBench