Récemment, une évaluation des capacités de l'IA originale s'est déroulée sur la plateforme Minecraft, attirant une attention considérable. Deux versions de Claude3.5Sonnet, ancienne et nouvelle, se sont affrontées dans un concours de construction, révélant des différences de compétences significatives. La nouvelle version (provisoirement nommée "Sonnet3.6") a été particulièrement impressionnante.

Ce test, initié par le développeur adi, a été surnommé la "seule référence fiable". Aidan McLau, chercheur en référence, estime que cette méthode répond parfaitement aux besoins actuels d'évaluation de l'IA, soulignant la corrélation entre la capacité esthétique et le niveau d'intelligence. Le projet a rapidement bénéficié du soutien de la communauté open source, et le code source est désormais disponible sur GitHub.

image.png

Les résultats montrent que chaque modèle a démontré une "personnalité" unique :

Sonnet3.6 a excellé en créativité, obtenant le soutien de plus de 2000 internautes.

Le modèle o1-preview d'OpenAI, bien que plus lent en termes de construction, a brillamment reproduit des bâtiments réels (comme le Taj Mahal).

o1-mini, quant à lui, n'a pas pu accomplir la tâche.

Llama3405B a construit un "mur de diamants sur un feu de joie", symbole de lui-même.

Qwen2.5-14B d'Alibaba a également fait preuve de compétences remarquables.

Il est important de noter que la construction dans le jeu ne repose pas sur la compréhension visuelle ou le contrôle direct des périphériques d'entrée. L'IA fournit un contexte et génère des instructions d'action sous forme de texte, un peu comme aux échecs à l'aveugle. La réalisation technique repose principalement sur :

La librairie open source mineflayer : elle convertit les instructions générées par l'IA en appels API exécutables.

La librairie open source mindcraft : elle fournit des invites et des exemples universels, permettant l'intégration de divers modèles au jeu.

L'équipe prévoit d'améliorer ce mécanisme d'évaluation, en créant un système de notation similaire à l'arène Lmsys, utilisant l'algorithme Elo et basé sur les votes des utilisateurs humains. L'environnement de test complet ne prendrait que 15 minutes à configurer.

Cette méthode d'évaluation novatrice met non seulement en lumière la créativité de l'IA, mais offre également une nouvelle perspective pour une évaluation objective des capacités des grands modèles. Comme le montre o1-preview qui, en mode libre, a choisi de construire un robot et d'épeler "GPT", l'IA semble commencer à exprimer sa "personnalité" dans ce monde virtuel. Avec l'arrivée de nouveaux modèles, ce jeu classique devient une plateforme unique pour observer l'évolution de l'IA.

Tutoriel vidéo :

https://x.com/mckaywrigley/status/1849613686098506064

Code source :

https://github.com/kolbytn/mindcraft

https://github.com/mc-bench/orchestrator