Magma-8Bは、マイクロソフトが開発したマルチモーダルAI基盤モデルであり、マルチモーダルAIエージェントの研究のために設計されています。テキストと画像の入力を組み合わせ、テキスト出力を生成し、ビジュアルプランニングとエージェント機能を備えています。このモデルは、言語モデルのバックボーンとしてMeta LLaMA-3を使用し、CLIP-ConvNeXt-XXLargeビジョンエンコーダーと組み合わせることで、ラベルなしビデオデータからの時空間関係の学習を可能にし、強力な汎化能力とマルチタスク適応性を備えています。Magma-8Bはマルチモーダルタスク、特に空間理解と推論において優れた性能を発揮します。これはマルチモーダルAI研究に強力なツールを提供し、仮想環境と現実環境における複雑なインタラクションの研究を推進します。