Dans le domaine du traitement du langage naturel, la compréhension de longs contextes reste un défi. Bien que les grands modèles de langage (LLM) affichent d'excellentes performances sur de nombreuses tâches linguistiques, ils sont souvent limités lorsqu'il s'agit de traiter des textes dépassant la taille de leur fenêtre contextuelle. Pour surmonter cette limitation, les chercheurs s'efforcent d'améliorer la capacité des LLM à comprendre les longs textes, ce qui est crucial non seulement pour la recherche académique, mais aussi pour les applications réelles, telles que la compréhension de connaissances spécifiques à un domaine, la génération de longues conversations, la génération de longues histoires ou de codes.
Dans cette étude, les auteurs présentent un nouveau benchmark, LooGLE (Long Context Generic Language Evaluation), spécialement conçu pour évaluer la capacité des LLM à comprendre les longs contextes. Ce benchmark comprend 776 documents très longs postérieurs à 2022, chaque document contenant en moyenne 19,3 000 mots, et 6 448 exemples de test couvrant plusieurs domaines, tels que le monde académique, l'histoire, le sport, la politique, l'art, les événements et le divertissement.
Caractéristiques de LooGLE
Documents réels extra-longs : la longueur des documents de LooGLE dépasse largement la taille de la fenêtre contextuelle des LLM, exigeant ainsi des modèles la capacité de mémoriser et de comprendre des textes plus longs.
Tâches de dépendance courtes et longues conçues manuellement : le benchmark comprend sept tâches principales, incluant des tâches de dépendance courte et longue, afin d'évaluer la capacité des LLM à comprendre les contenus à dépendances courtes et longues.
Documents relativement récents : tous les documents ont été publiés après 2022, ce qui garantit que la plupart des LLM modernes n'y ont pas été exposés pendant leur pré-entraînement, permettant ainsi une évaluation plus précise de leurs capacités d'apprentissage contextuel.
Données génériques inter-domaines : les données du benchmark proviennent de documents open source populaires, tels que des articles arXiv, des articles Wikipédia, des scénarios de films et de séries télévisées.
Les chercheurs ont procédé à une évaluation globale de huit LLM de pointe, révélant les conclusions clés suivantes :
Les modèles commerciaux surpassent les modèles open source en termes de performances.
Les LLM excellent dans les tâches de dépendance courte, mais rencontrent des difficultés avec les tâches de dépendance longue plus complexes.
Les méthodes basées sur l'apprentissage contextuel et la chaîne de pensée n'offrent qu'une amélioration limitée de la compréhension des longs contextes.
Les techniques basées sur la recherche montrent un avantage significatif dans les réponses courtes aux questions, tandis que les stratégies visant à étendre la longueur de la fenêtre contextuelle grâce à une architecture Transformer optimisée ou à un codage de position ont un impact limité sur la compréhension des longs contextes.
Le benchmark LooGLE fournit non seulement un schéma d'évaluation systématique et complet pour les LLM à long contexte, mais il guide également le développement futur de modèles dotés d'une « véritable compréhension des longs contextes ». Tout le code d'évaluation a été publié sur GitHub pour consultation et utilisation par la communauté de recherche.
Adresse de l'article : https://arxiv.org/pdf/2311.04939
Adresse du code : https://github.com/bigai-nlco/LooGLE