Récemment, Microsoft a officiellement publié en open source sur son site web un nouveau modèle de base d'agent IA multimodale nommé « Magma ». Ce nouvel agent d'intelligence artificielle possède la capacité de transcender les mondes numérique et physique, capable de traiter simultanément plusieurs types de données, telles que des images, des vidéos et du texte. Comparé aux assistants IA traditionnels, Magma se distingue par sa fonction de prédiction psychologique, lui permettant de comprendre plus précisément les intentions et les comportements futurs des personnages ou des objets dans une vidéo.

QQ_1740532404239.png

Magma possède un large éventail d'applications. Les utilisateurs peuvent l'utiliser pour effectuer des achats en ligne automatiquement, consulter la météo et d'autres opérations quotidiennes. De plus, il est capable de contrôler automatiquement des robots physiques et de fournir une assistance en temps réel aux utilisateurs lors d'activités telles que les échecs. Cette capacité multimodale permet à Magma d'exceller dans différents environnements et de s'adapter à des tâches complexes.

Selon la présentation officielle, Magma est particulièrement adapté aux assistants ou robots pilotés par l'IA, les aidant à mieux comprendre leur environnement et à agir en conséquence. Par exemple, il peut guider un robot domestique pour apprendre à ranger des objets qu'il n'a jamais vus auparavant, ou aider un assistant virtuel à générer des guides d'utilisation étape par étape. Cette caractéristique améliore considérablement les capacités d'apprentissage et l'utilité des robots.

Le modèle Magma fait partie de la série VLA (Vision-Langage-Action). En apprenant à partir d'un vaste ensemble de données visuelles et linguistiques publiques, il est capable de fusionner l'intelligence linguistique, spatiale et temporelle pour faire face efficacement aux tâches et aux défis complexes de la vie réelle. Avec le développement de la technologie de l'intelligence artificielle, le lancement de Magma marque une nouvelle avancée majeure pour les assistants intelligents et la robotique.

Lien du projet : https://microsoft.github.io/Magma/

Points clés :

🌐 **Capacités multimodales :** Magma peut traiter plusieurs types de données, telles que des images, des vidéos et du texte, améliorant ainsi les fonctionnalités des assistants intelligents.

🤖 **Applications intelligentes :** Les utilisateurs peuvent utiliser Magma pour passer des commandes automatiquement, consulter la météo et contrôler des robots physiques.

📚 **Apprentissage et adaptabilité :** Magma aide les robots à apprendre de nouvelles tâches et génère des guides d'utilisation pour les assistants virtuels, améliorant ainsi leur utilité.