マイクロソフトは公式ウェブサイトで、マルチモーダルAIエージェント基礎モデル「Magma」を正式に発表し、オープンソース化しました。この新興技術は従来のスマートアシスタントと比べて、はるかに強力なマルチモーダル能力を備え、画像、動画、テキストなど様々なデータ形式を処理することで、デジタル世界と物理世界の壁を打ち破ります。

Magmaは、ECサイトでの自動注文や天気予報の確認などの日常業務を支援するだけでなく、実体ロボットと連携してより複雑な操作を実行することもできます。例えば、実際に将棋を指す際に、Magmaはリアルタイムで戦略的アドバイスを提供し、ゲーム体験を大幅に向上させます。同時に、心理予測機能も備えており、動画内の人物や物体の将来の行動を推測することで、仮想アシスタントやロボットが周囲の状況をより良く理解し、適切に対応できます。

image.png

公式の説明によると、Magmaの適用範囲は非常に広いです。家庭用ロボットが今まで見たことのない物を整理する方法を学習するのを支援するだけでなく、仮想アシスタントが不慣れなタスクの段階的なユーザーインターフェースナビゲーション説明を生成することもできます。これらの機能により、ユーザーは新しい環境やタスクに直面した場合でも、より正確な支援とガイダンスを得ることができます。

image.png

Magmaは、ビジュアル言語アクション(VLA)基礎モデルの一部であり、大量の公開された視覚および言語データを使用して学習できます。この能力により、Magmaは言語、空間、時間に関する知能を効果的に融合し、デジタル世界と物理世界におけるユーザーの複雑なタスクに対する解決策を提供します。

Magmaのオープンソース化は、開発者と研究者にとって強力なツールを提供し、スマートアシスタントと家庭用ロボットのさらなる発展を促進します。今後、この技術の継続的な改良により、日常生活の中でMagmaベースの革新的なアプリケーションをさらに目にすることができるでしょう。

プロジェクトアドレス:https://microsoft.github.io/Magma/