Meta a publié samedi son nouveau modèle d'IA phare, Maverick, qui s'est classé deuxième au classement LM Arena. LM Arena est une plateforme de test qui s'appuie sur des évaluateurs humains pour comparer les sorties de différents modèles et choisir leurs préférences. Cependant, plusieurs chercheurs en IA ont rapidement découvert que la version de Maverick déployée par Meta sur LM Arena semblait différer de manière significative de la version largement utilisée par les développeurs.
Meta a admis dans un communiqué que le Maverick sur LM Arena était une « version de chat expérimentale ». Parallèlement, un graphique sur le site officiel de Llama montre que le test LM Arena de Meta utilisait « Llama4Maverick optimisé pour la conversation ». Cette différence a suscité des questions au sein de la communauté de recherche.
Des chercheurs en IA ont souligné sur la plateforme sociale X des différences de comportement évidentes entre la version de Maverick téléchargeable publiquement et la version hébergée sur LM Arena. La version LM Arena se caractérise par l'utilisation abondante d'émojis et des réponses longues, ce qui est moins courant dans la version standard. Un chercheur nommé Nathan Lambert a partagé cette découverte sur X, commentant ironiquement : « Bon, Llama4 a certainement un peu trop mijoté, haha, où est-ce qu'on est à Yaph City ? », et a joint des captures d'écran.
Cette pratique consistant à adapter un modèle à un test de référence spécifique, puis à publier une version « brute », soulève de sérieux problèmes, principalement parce qu'elle rend difficile pour les développeurs de prédire avec précision les performances du modèle dans des scénarios d'application réels. De plus, cette pratique est considérée comme trompeuse, car l'objectif des tests de référence est de fournir un instantané objectif des forces et des faiblesses d'un modèle unique dans diverses tâches.
Bien que LM Arena ne soit pas toujours considéré comme l'indicateur le plus fiable des performances des modèles d'IA pour diverses raisons, les entreprises d'IA n'admettent généralement pas avoir optimisé spécifiquement un modèle pour obtenir de meilleurs résultats aux évaluations. L'approche de Meta semble rompre avec cette convention, suscitant un débat plus large sur la transparence des évaluations des modèles d'IA.