AlphaMaze est un projet axé sur l'amélioration des capacités de raisonnement visuel des grands modèles linguistiques (LLM). Il entraîne les modèles à résoudre des tâches de labyrinthes décrites textuellement, leur permettant ainsi de comprendre et de planifier des structures spatiales. Cette méthode évite le traitement d'images complexes et évalue directement la capacité de compréhension spatiale du modèle via une description textuelle. Son principal avantage est de révéler comment le modèle raisonne sur les problèmes spatiaux, et pas seulement s'il peut les résoudre. Ce modèle, basé sur un framework open source, vise à stimuler la recherche et le développement des modèles linguistiques dans le domaine du raisonnement visuel.