Magma est un modèle fondamental multimodal développé par l'équipe de recherche Microsoft. Il vise à planifier et à exécuter des tâches complexes en combinant la vision, le langage et l'action. Pré-entraîné sur un vaste ensemble de données visuelles et linguistiques, il possède des capacités de compréhension du langage, d'intelligence spatiale et de planification d'actions, et excelle dans des tâches de navigation d'interface utilisateur et de manipulation robotique. Ce modèle offre un puissant cadre de base pour les tâches d'agents IA multimodaux et présente des perspectives d'application vastes.