Microsoft a officiellement publié et open-sourcé sur son site Web son modèle de base d'agent IA multimodale, « Magma ». Cette technologie émergente, par rapport aux assistants intelligents traditionnels, présente des capacités multimodales bien plus puissantes, capables de traiter plusieurs formes de données telles que des images, des vidéos et du texte, brisant ainsi la barrière entre le monde numérique et le monde physique.

Magma peut non seulement aider les utilisateurs à passer des commandes automatiquement sur les plateformes de commerce électronique, à consulter la météo et à gérer d'autres tâches quotidiennes, mais il peut également collaborer avec des robots physiques pour exécuter des opérations plus complexes. Par exemple, lors d'une partie d'échecs réelle, Magma peut fournir des conseils stratégiques en temps réel, améliorant ainsi considérablement l'expérience de jeu. De plus, il possède une fonction de prédiction psychologique, capable de prédire le comportement futur des personnages ou des objets dans une vidéo, permettant aux assistants virtuels ou aux robots de mieux comprendre leur environnement dynamique et d'y réagir en conséquence.

image.png

Selon la présentation officielle, les applications de Magma sont très vastes. Il peut non seulement aider les robots domestiques à apprendre à ranger des objets qu'ils n'ont jamais vus auparavant, mais il peut également générer pour les assistants virtuels des instructions de navigation pas à pas pour des tâches inconnues. Ces fonctionnalités permettent aux utilisateurs de bénéficier d'une aide et de conseils plus précis lorsqu'ils sont confrontés à de nouveaux environnements ou à de nouvelles tâches.

image.png

Magma fait partie des modèles de base de vision-langage-action (VLA), capable d'apprendre à partir d'un volume massif de données visuelles et linguistiques publiques. Cette capacité permet à Magma de fusionner efficacement l'intelligence linguistique, spatiale et temporelle, offrant aux utilisateurs des solutions pour des tâches complexes dans les mondes numérique et physique.

L'open-source de Magma fournit aux développeurs et aux chercheurs un outil puissant, favorisant le développement des assistants intelligents et des robots domestiques. À l'avenir, avec l'amélioration continue de cette technologie, nous pourrons peut-être voir davantage d'applications innovantes basées sur Magma dans notre vie quotidienne.

Adresse du projet : https://microsoft.github.io/Magma/