Le laboratoire de recherche DAMO d'Alibaba et la communauté ModelScope ont récemment annoncé la publication en open source de P-MMEval, un nouveau jeu de données de référence multilingue. Son objectif : évaluer de manière exhaustive les capacités multilingues des grands modèles de langage (LLM) et comparer leurs capacités de transfert interlinguistique. Ce jeu de données couvre des tâches fondamentales et spécialisées, garantissant une couverture multilingue cohérente dans tous les ensembles de données sélectionnés et fournissant des exemples parallèles dans plusieurs langues. Il prend en charge jusqu'à 10 langues de 8 familles linguistiques différentes, notamment l'anglais, le chinois, l'arabe, l'espagnol, le japonais, le coréen, le thaï, le français, le portugais et le vietnamien.
Le lancement de P-MMEval répond au besoin d'évaluations précises et parallèles lors du développement et de l'itération des grands modèles de langage. Ceci est crucial pour identifier les capacités multilingues des modèles et quantifier leurs performances. Les travaux antérieurs se concentraient principalement sur l'évaluation de tâches uniques, tandis que des recherches récentes ont proposé des benchmarks d'évaluation multilingues et multitâches à grande échelle, unifiant plusieurs tâches de référence indépendantes représentatives. Cependant, ces benchmarks à grande échelle ne présentaient pas une cohérence dans la couverture des langues.
P-MMEval sélectionne les jeux de données de référence utilisables et pertinents grâce à une méthode basée sur des tests de significativité. Il intègre des tâches de traitement du langage naturel (TLN) fondamentales et des tâches d'évaluation spécifiques à des capacités, garantissant une cohérence de la couverture linguistique pour chaque tâche et fournissant des exemples parallèles interlinguistiques pour des comparaisons cohérentes. En termes de diversité des tâches, P-MMEval couvre deux tâches TLN fondamentales clés (génération et compréhension) ainsi que cinq capacités centrales des LLM actuels. Concernant la diversité linguistique, P-MMEval unifie dix langues différentes couvrant huit familles linguistiques.
Le jeu de données P-MMEval a été intégré aux systèmes d'évaluation OpenCompass et EvalScope. Ces deux frameworks permettent d'exécuter les tâches d'évaluation. OpenCompass offre une plateforme d'évaluation de modèles open source, efficace et complète, prenant en charge l'évaluation unifiée de divers modèles, y compris les grands modèles de langage et les modèles multimodaux, et publiant régulièrement des classements de résultats. P-MMEval a été intégré à OpenCompass et son évaluation peut être réalisée à l'aide des outils open source de ce dernier.
Les chercheurs ont évalué les performances de plusieurs modèles d'ajustement d'instructions représentatifs, notamment les modèles propriétaires GPT-4o et Claude-3.5, et les modèles open source LLaMA3.1, LLaMA3.2 et Qwen2.5. Les résultats expérimentaux montrent que, à l'exception de la série LLaMA3.2, les capacités multilingues de tous les modèles s'améliorent avec l'augmentation de la taille du modèle. Qwen2.5 affiche de solides performances multilingues dans les tâches de compréhension et les tâches spécialisées, tandis que Gemma2 excelle dans les tâches de génération. Les modèles propriétaires surpassent globalement les modèles open source.
Le lancement de P-MMEval fournit de nouveaux outils et méthodes pour l'évaluation des capacités multilingues des grands modèles, contribuant ainsi à l'avancement et à l'application des technologies de TLN multilingues.
Lien vers le jeu de données :
https://www.modelscope.cn/datasets/modelscope/P-MMEval