Un élève de terminale a créé une plateforme innovante permettant d'évaluer les performances de différents modèles d'IA dans la création de contenu Minecraft, offrant ainsi un nouveau point de vue dans le domaine de l'évaluation de l'intelligence artificielle.

Une nouvelle méthode de test pour pallier les limites des évaluations traditionnelles

Face aux limites de plus en plus évidentes des méthodes traditionnelles d'évaluation de l'IA, les développeurs cherchent des voies d'évaluation plus créatives. Pour un groupe de développeurs, Minecraft, le jeu de construction en bac à sable de Microsoft, est devenu le choix idéal.

Le site web Minecraft Benchmark (MC-Bench), développé par le lycéen Adi Singh et son équipe, permet aux modèles d'IA de s'affronter dans des défis directs, répondant à diverses invites par le biais de créations Minecraft. Les utilisateurs peuvent voter pour le modèle le plus performant ; le créateur IA de chaque œuvre n'est révélé qu'après le vote.

Singh explique avoir choisi Minecraft comme plateforme de test en raison de sa grande popularité : étant le jeu vidéo le plus vendu de tous les temps, même ceux qui n'y ont jamais joué peuvent juger intuitivement quel ananas en blocs est le meilleur.

"Minecraft permet aux gens de visualiser plus facilement les progrès du développement de l'IA", a déclaré Singh à TechCrunch. "Les gens sont familiers avec Minecraft, avec son apparence et son ambiance."

QQ20250321-094417.png

Le projet bénéficie du soutien d'acteurs majeurs de l'IA

MC-Bench compte actuellement 8 bénévoles. Selon les informations du site web, Anthropic, Google, OpenAI et Alibaba ont subventionné le projet, permettant l'utilisation de leurs produits pour les tests de référence, mais ces entreprises n'ont aucun autre lien avec le projet.

Singh partage la vision future du projet : "Pour l'instant, nous ne faisons que des constructions simples, en réfléchissant aux progrès que nous avons réalisés par rapport à l'ère de GPT-3, mais nous prévoyons de passer à des planifications à long terme et à des tâches orientées vers des objectifs. Le jeu peut être simplement un moyen de tester le raisonnement des agents, il est plus sûr que la vie réelle et plus facile à contrôler en termes de tests, ce qui me semble plus idéal."

Outre Minecraft, des jeux comme Pokémon Rouge, Street Fighter et Pictionary sont également utilisés comme références pour les expériences d'IA, en partie parce que les tests de référence de l'IA sont eux-mêmes extrêmement difficiles.

QQ20250321-094426.png

Une évaluation intuitive remplaçant les indicateurs complexes

Les chercheurs testent généralement les modèles d'IA dans des évaluations standardisées, mais ces tests donnent souvent un avantage injuste à l'IA. En raison de leur formation, les modèles sont naturellement doués pour certains types de problèmes, en particulier ceux qui impliquent la mémoire ou le raisonnement de base.

Cette contradiction se retrouve dans de nombreux cas : GPT-4 d'OpenAI peut obtenir 88 % au LSAT, mais ne peut pas compter correctement le nombre de "R" dans le mot "strawberry" ; Claude 3.7 Sonnet d'Anthropic atteint une précision de 62,3 % dans les tests de référence standardisés d'ingénierie logicielle, mais est moins performant que la plupart des enfants de cinq ans pour jouer à Pokémon.

D'un point de vue technique, MC-Bench est un test de référence de programmation qui exige que les modèles écrivent du code pour créer des constructions spécifiques, comme "Frosty le bonhomme de neige" ou "un charmant bungalow tropical sur une plage primitive". Mais pour la plupart des utilisateurs, évaluer l'apparence du bonhomme de neige est plus intuitif que d'analyser en profondeur le code, ce qui donne au projet une plus grande portée et permet d'espérer collecter davantage de données sur les performances des modèles.

Bien que l'impact de ces scores sur l'utilité de l'IA reste à déterminer, Singh est convaincu qu'il s'agit d'un signal fort : "Le classement actuel est très proche de mon expérience personnelle d'utilisation de ces modèles, ce qui diffère de nombreux tests de référence purement textuels. Peut-être que MC-Bench peut aider les entreprises à savoir si elles vont dans la bonne direction."