Magmaは、Microsoft Researchチームが開発した多モーダル基礎モデルです。視覚、言語、動作を組み合わせることで、複雑なタスクの計画と実行を目指しています。大規模な視覚言語データによって事前学習されており、言語理解、空間認識、動作計画能力を備え、UIナビゲーションやロボット操作などのタスクで優れた性能を発揮します。このモデルは、多モーダルAIエージェントタスクに強力な基礎フレームワークを提供し、幅広い応用が期待されます。