Factorio, un jeu vidéo complexe axé sur la construction et la gestion des ressources, est récemment devenu un nouvel outil pour les chercheurs afin d'évaluer les capacités de l'intelligence artificielle. Ce jeu permet de tester la capacité des modèles linguistiques à planifier et construire des systèmes complexes tout en gérant plusieurs ressources et chaînes de production.
À cette fin, une équipe de recherche a développé un système appelé « Environnement d'apprentissage Factorio » (FLE), proposant deux modes de test distincts. Le « mode expérimental » comprend 24 défis structurés avec des objectifs spécifiques et des ressources limitées, allant de la construction simple de deux machines à la construction d'usines complexes de près d'une centaine de machines. En « mode ouvert », les agents IA peuvent explorer des cartes générées procéduralement, le seul objectif étant de construire une usine aussi grande que possible.
Les agents interagissent avec Factorio via une API Python, permettant de générer du code pour effectuer diverses actions et vérifier l'état du jeu. Ce système vise à tester la capacité des modèles linguistiques à synthétiser des programmes et à gérer des systèmes complexes. L'API permet aux agents d'effectuer des actions telles que le placement et la connexion de composants, la gestion des ressources et la surveillance de l'avancement de la production.
Pour évaluer les performances des agents, les chercheurs ont utilisé deux indicateurs clés : un « score de production » calculant la valeur de la production totale, qui augmente exponentiellement avec la complexité de la chaîne de production ; et des « étapes clés » suivant les réalisations importantes telles que la création de nouveaux objets ou la recherche de technologies. La simulation économique du jeu prend en compte des facteurs tels que la rareté des ressources, les prix du marché et l'efficacité de la production.
L'équipe de recherche, comprenant des scientifiques d'Anthropic, a évalué les performances de six modèles linguistiques de pointe dans l'environnement FLE, notamment Claude3.5Sonnet, GPT-4o et sa version miniature, DeepSeek-V3, Gemini2.0Flash et Llama-3.3-70B-Instruct. Les grands modèles de raisonnement (LRM) n'étaient pas inclus dans ces tests, bien que les tests de référence précédents aient montré que des modèles comme o1 excellaient en matière de planification, malgré leurs propres limites.
Les tests ont révélé que les modèles linguistiques évalués ont rencontré des défis importants en matière de raisonnement spatial, de planification à long terme et de correction d'erreurs. Lors de la construction d'usines, les agents IA ont eu des difficultés à organiser et connecter efficacement les machines, entraînant des dispositions sous-optimales et des goulots d'étranglement de production. La réflexion stratégique a également été un défi, les modèles ayant généralement tendance à privilégier les objectifs à court terme plutôt que la planification à long terme. De plus, bien qu'ils soient capables de gérer le dépannage de base, ils ont tendance à se retrouver pris dans des cycles de débogage inefficaces face à des problèmes plus complexes.
Parmi les modèles testés, Claude3.5Sonnet a obtenu les meilleurs résultats, mais n'a pas réussi à relever tous les défis. En mode expérimental, Claude a réussi 15 des 24 tâches, tandis que les autres modèles n'en ont réussi au maximum que 10. En test ouvert, Claude a obtenu un score de production de 2456 points, suivi de GPT-4o avec 1789 points. Claude a démontré une maîtrise complexe du jeu Factorio, passant rapidement de produits de base à des processus de production complexes grâce à des méthodes de fabrication et de recherche stratégiques, notamment l'amélioration de la technologie de perceuse, augmentant considérablement la vitesse de production de plaques de fer.
Les chercheurs estiment que la nature ouverte et extensible de FLE lui confère une valeur importante pour les tests de modèles linguistiques plus puissants à l'avenir. Ils suggèrent d'étendre cet environnement pour inclure des scénarios multi-agents et des références de performances humaines afin de fournir un meilleur contexte d'évaluation. Ce travail enrichit l'ensemble des tests de référence de l'IA basés sur les jeux, qui comprend également BALROG et le prochain MCBench, qui utiliseront Minecraft pour tester les modèles.
Environnement d'apprentissage Factorio : https://top.aibase.com/tool/factorio-learning-environment
Points clés :
🌟 Le jeu Factorio est devenu un nouvel outil pour évaluer les capacités de l'IA, testant la capacité des modèles linguistiques à gérer des systèmes complexes.
🛠️ L'environnement d'apprentissage Factorio (FLE) offre des modes expérimental et ouvert, permettant à l'IA de relever des défis dans différentes conditions.
📊 Les tests montrent que Claude3.5Sonnet a obtenu les meilleurs résultats, mais qu'il rencontre toujours des difficultés en matière de planification à long terme et de traitement de problèmes complexes.