最近、Microsoftは自社ウェブサイトで「Magma」と呼ばれるマルチモーダルAIエージェントの基本モデルを正式に公開しました。この新しい人工知能は、デジタル世界と物理世界の垣根を超え、画像、ビデオ、テキストなど、さまざまな種類のデータを同時に処理できます。従来のAIアシスタントと比較して、Magmaは心理的予測能力に優れており、ビデオ内の人物や物体の将来の意図や行動をより正確に理解できます。

QQ_1740532404239.png

Magmaは幅広い用途を持っています。ユーザーは、このAIを使用して自動的に買い物をしたり、天気を確認したり、その他の日常的な操作を行うことができます。さらに、物理的なロボットを制御し、チェスのプレイなど、リアルタイムでアシスタンスを提供することもできます。このマルチモーダル機能により、Magmaはさまざまな環境で活躍し、複雑なタスクにも対応できます。

公式発表によると、Magmaは特にAI駆動のアシスタントやロボットに適しており、周囲の環境をより良く理解し、適切な行動をとるのに役立ちます。例えば、見たことのないアイテムの整理方法を家庭用ロボットに学習させたり、仮想アシスタントがユーザー向けのステップバイステップガイドを生成するのを支援したりできます。この機能により、ロボットの学習能力と有用性が大幅に向上します。

MagmaモデルはVLA(ビジュアル言語アクション)シリーズの一部であり、大量の公開されている視覚データと言語データから学習し、言語、空間、時間に関する知性を統合して、現実世界の複雑なタスクや課題に効果的に対処できます。人工知能技術の発展に伴い、Magmaの発表は、スマートアシスタントとロボティクス技術における大きな進歩を表しています。

プロジェクトリンク:https://microsoft.github.io/Magma/

特徴:

🌐 **マルチモーダル機能**: Magmaは画像、ビデオ、テキストなど、さまざまな種類のデータを処理でき、スマートアシスタントの機能性を向上させます。

🤖 **スマートアプリケーション**: ユーザーはMagmaを使用して自動的に注文したり、天気を確認したり、物理的なロボットを制御したりできます。

📚 **学習と適応能力**: Magmaはロボットが新しいタスクを学習するのを支援し、仮想アシスタント用の操作ガイドを生成することで、その有用性を高めます。