À l'heure où l'intelligence artificielle connaît un développement fulgurant, l'évaluation et la comparaison efficaces des différents modèles d'IA générative constituent un défi majeur. Les méthodes traditionnelles de tests de référence de l'IA révèlent progressivement leurs limites, ce qui incite les développeurs d'IA à explorer des voies d'évaluation plus innovantes.
Récemment, un site web baptisé « Minecraft Benchmark » (MC-Bench) a fait son apparition. Son originalité ? Il utilise le jeu de construction en bac à sable de Microsoft, Minecraft, comme plateforme. Les utilisateurs comparent les créations du jeu réalisées par les modèles d'IA à partir d'instructions pour évaluer leurs performances. Plus surprenant encore, le créateur de cette plateforme novatrice est un élève de terminale.
Minecraft transformé en arène d'IA
Le site web MC-Bench propose une méthode d'évaluation des modèles d'IA intuitive et amusante. Les développeurs soumettent différentes instructions aux modèles d'IA participants, qui génèrent ensuite des constructions dans Minecraft. Sans savoir quelle construction provient de quel modèle, les utilisateurs votent pour celle qui, selon eux, correspond le mieux aux instructions et est la plus réussie. Ce n'est qu'après le vote que l'utilisateur découvre le « créateur » de chaque construction. Ce mécanisme de « vote aveugle » vise à refléter de manière plus objective les capacités réelles de génération des modèles d'IA.
Adi Singh explique que le choix de Minecraft comme plateforme de test de référence ne se limite pas à la popularité du jeu – il s'agit du jeu vidéo le plus vendu de tous les temps. Plus important encore, sa grande popularité et la familiarité du public avec son style visuel permettent même aux personnes n'ayant jamais joué au jeu de juger relativement facilement quel ananas en blocs est le plus réaliste. Il estime que « Minecraft permet aux gens de voir plus facilement les progrès [de l'IA] », cette évaluation visuelle étant plus convaincante que de simples indicateurs textuels.
Fonctionnalités clés
MC-Bench se concentre actuellement sur des tâches de construction relativement simples. Par exemple, à partir d'instructions telles que « Roi du givre » ou « Charmante cabane tropicale sur une plage primitive », les modèles d'IA doivent générer du code pour créer les structures de jeu correspondantes. Il s'agit fondamentalement d'un test de référence de programmation, mais son ingéniosité réside dans le fait que les utilisateurs n'ont pas besoin d'étudier un code complexe ; l'aspect visuel suffit à juger de la qualité des œuvres, ce qui améliore considérablement la participation au projet et le potentiel de collecte de données.
MC-Bench vise à permettre au grand public de percevoir plus facilement le niveau de développement de la technologie de l'IA. « Le classement actuel correspond parfaitement à mon expérience personnelle d'utilisation de ces modèles, contrairement à de nombreux tests de référence purement textuels », déclare Singh. Il estime que MC-Bench pourrait fournir une référence précieuse aux entreprises concernées, les aidant à déterminer si l'orientation de leur recherche et développement en IA est correcte.
Bien que MC-Bench ait été lancé par Adi Singh, il rassemble également un groupe de contributeurs bénévoles. Il est à noter que plusieurs entreprises d'IA de premier plan, notamment Anthropic, Google, OpenAI et Alibaba, ont subventionné le projet en fournissant des produits pour exécuter les tests de référence. Toutefois, le site web de MC-Bench précise que ces entreprises ne sont pas liées au projet d'une autre manière.
Singh nourrit de grandes ambitions pour l'avenir de MC-Bench. Il indique que les constructions simples actuelles ne sont qu'un point de départ, et que des tâches plus longues et orientées vers des objectifs pourraient être envisagées à l'avenir. Il estime que les jeux pourraient constituer un support sûr et contrôlable pour tester les capacités de « raisonnement par agent » de l'IA, ce qui est difficile à réaliser dans la vie réelle, et donc plus avantageux en termes de tests.
Une nouvelle approche révolutionnaire de l'évaluation de l'IA
Outre MC-Bench, d'autres jeux comme Street Fighter et Pictionary ont été utilisés comme tests de référence expérimentaux pour l'IA, ce qui reflète le caractère hautement technique du domaine des tests de référence de l'IA. Les évaluations standardisées traditionnelles présentent souvent un « avantage sur le terrain » car les modèles d'IA sont optimisés pendant leur formation pour certains types de problèmes spécifiques, notamment ceux nécessitant de la mémorisation ou des déductions de base. Par exemple, GPT-4 d'OpenAI a obtenu un excellent score de 88 % à l'examen LSAT, mais est incapable de déterminer le nombre de « R » dans le mot « strawberry ».
Claude 3.7 Sonnet d'Anthropic a atteint un taux de précision de 62,3 % aux tests de référence standardisés en génie logiciel, mais ses performances dans Pokémon sont inférieures à celles de la plupart des enfants de cinq ans.
L'apparition de MC-Bench offre un point de vue nouveau et plus facile à comprendre pour évaluer les capacités des modèles d'IA générative. En utilisant une plateforme de jeu familière au grand public, il transforme les capacités complexes de l'IA en comparaisons visuelles intuitives, permettant à un plus grand nombre de personnes de participer à l'évaluation et à la compréhension de l'IA. Bien que la valeur réelle de cette méthode d'évaluation fasse encore l'objet de discussions, elle nous offre sans aucun doute une nouvelle fenêtre d'observation du développement de l'IA.