Récemment, les grands modèles de langage (LLM) dotés de fenêtres contextuelles ultralongues sont devenus un sujet de discussion brûlant. Ces modèles peuvent traiter des dizaines de milliers, voire des millions de jetons dans une seule invite, ouvrant ainsi de nombreuses possibilités aux développeurs. Cependant, dans quelle mesure ces LLM à long contexte peuvent-ils réellement comprendre et exploiter les vastes informations qu'ils reçoivent ?

Pour répondre à cette question, les chercheurs de Google DeepMind ont lancé un nouveau benchmark nommé Michelangelo, visant à évaluer les capacités de raisonnement à long contexte.

Les résultats de la recherche montrent que, bien que les meilleurs modèles actuels aient fait des progrès dans l'extraction d'informations à partir de grandes quantités de données contextuelles, ils rencontrent encore des difficultés dans les tâches nécessitant du raisonnement et de la compréhension de la structure des données.

Avec l'émergence des LLM à fenêtres contextuelles ultralongues, les chercheurs ont commencé à réaliser qu'il était nécessaire de créer de nouveaux benchmarks pour évaluer les capacités de ces modèles. Les évaluations existantes se concentrent principalement sur les tâches de recherche d'informations, telles que l'évaluation « trouver une aiguille dans une botte de foin », c'est-à-dire la recherche d'informations spécifiques dans un vaste contexte. Cependant, une simple recherche ne signifie pas que le modèle comprend le contexte global.

Pour résoudre ces problèmes, Michelangelo propose une nouvelle méthode d'évaluation, en définissant des tâches complexes qui exigent des modèles un raisonnement et une synthèse plus approfondis lors du traitement de longs textes. Par exemple, ce cadre d'évaluation comprend plusieurs tâches liées à la programmation et au langage naturel, qui testent non seulement la capacité de mémoire du modèle, mais aussi sa profondeur de compréhension et de traitement de l'information.

Dans les tâches d'évaluation de Michelangelo, les modèles doivent résoudre trois tâches fondamentales de synthèse de longs documents : « liste latente », « résolution de coréférence multi-tours » et d'autres scénarios d'application variés. Ces tâches aident non seulement à évaluer les performances des modèles sur les longs documents, mais aussi à révéler leurs lacunes en matière de raisonnement et de synthèse.

La première est la « liste latente », où le modèle doit traiter une longue série d'opérations sur une liste Python, filtrer les instructions non pertinentes ou redondantes afin de déterminer l'état final de la liste.

La seconde est la « résolution de coréférence multi-tours », où le modèle doit comprendre la structure d'une longue conversation et résoudre les problèmes de référence.

La troisième est le « je ne sais pas », où le modèle, lors de la réponse à des questions à choix multiples, doit déterminer si le contexte contient la réponse et être capable de répondre précisément « je ne sais pas ».

Les chercheurs ont évalué dix LLM de pointe (y compris différentes versions de Gemini, GPT-4 et Claude) sur Michelangelo, testant les modèles dans un contexte allant jusqu'à 1 million de jetons. Le modèle Gemini a obtenu les meilleurs résultats sur MRCR, les modèles GPT ont excellé sur Latent List, et Claude3.5Sonnet a obtenu le score le plus élevé sur IDK.

image.png

Les chercheurs ont constaté que, bien que les performances de ces modèles varient dans le traitement de longs contextes, leurs performances globales diminuent considérablement lorsqu'ils sont confrontés à des tâches de raisonnement plus complexes.

Cela signifie que même avec des fenêtres contextuelles ultralongues, les LLM actuels ont encore besoin d'améliorer leurs capacités de raisonnement.

Les chercheurs prévoient d'étendre continuellement le projet d'évaluation Michelangelo et souhaitent le rendre directement accessible à d'autres chercheurs pour qu'ils puissent tester leurs modèles.

Lien vers l'article : https://arxiv.org/abs/2409.12640

Points clés :

🔍 Le nouveau benchmark Michelangelo pour les LLM à long contexte vise à évaluer les capacités de raisonnement des modèles.

🧩 L'étude montre une baisse significative des performances des modèles existants dans le traitement des tâches de raisonnement complexes.

📈 Les chercheurs prévoient d'étendre le projet d'évaluation afin de promouvoir la recherche sur l'amélioration des capacités de raisonnement des modèles.