Magma é um modelo básico multimodal lançado pela equipe de pesquisa da Microsoft, projetado para realizar o planejamento e a execução de tarefas complexas por meio da combinação de visão, linguagem e ação. Pré-treinado com dados visuais e linguísticos em larga escala, possui capacidades de compreensão de linguagem, inteligência espacial e planejamento de ações, podendo apresentar desempenho excepcional em tarefas de navegação de interfaces de usuário (UI) e operação de robôs. A disponibilização deste modelo fornece uma estrutura básica robusta para tarefas de agentes de IA multimodais, com amplas perspectivas de aplicação.