A Microsoft lançou oficialmente e tornou de código aberto seu modelo de base de agente de IA multimodal, "Magma", em seu site. Essa tecnologia emergente apresenta capacidades multimodais significativamente aprimoradas em comparação com assistentes inteligentes tradicionais, manipulando imagens, vídeos e texto, e aproximando o mundo digital e o físico.

O Magma não apenas auxilia os usuários em tarefas cotidianas, como compras online automatizadas e verificações do tempo, mas também colabora com robôs físicos para executar operações mais complexas. Por exemplo, durante uma partida de xadrez real, o Magma fornece conselhos estratégicos em tempo real, aprimorando a experiência de jogo. Ele também possui recursos de previsão psicológica, antecipando as ações futuras de pessoas ou objetos em vídeos, permitindo que assistentes virtuais ou robôs entendam melhor seu ambiente dinâmico e reajam de acordo.

image.png

De acordo com a introdução oficial, as aplicações do Magma são extensas. Ele pode ajudar os robôs domésticos a aprender a organizar itens desconhecidos e gerar instruções de navegação passo a passo da interface do usuário para tarefas desconhecidas para assistentes virtuais. Esses recursos fornecem aos usuários assistência e orientação mais precisas ao encontrar novos ambientes ou tarefas.

image.png

O Magma faz parte do modelo de base Visão-Linguagem-Ação (VLA), aprendendo com grandes quantidades de dados visuais e de linguagem publicamente disponíveis. Essa capacidade permite que o Magma integre efetivamente a inteligência linguística, espacial e temporal, fornecendo soluções para tarefas complexas em mundos digitais e físicos.

A disponibilização do código aberto do Magma fornece aos desenvolvedores e pesquisadores uma ferramenta poderosa, fomentando avanços em assistentes inteligentes e robótica doméstica. No futuro, à medida que essa tecnologia amadurecer, podemos esperar ver aplicações mais inovadoras baseadas no Magma em nossa vida diária.

Endereço do projeto: https://microsoft.github.io/Magma/