マイクロソフトの研究チームは最近、「大型行動モデル」(Large Action Model、略してLAM)と呼ばれる人工知能技術を発表し、AIの発展に新たな段階をもたらしました。GPT-4oなどの従来の言語モデルとは異なり、LAMはWindowsプログラムを自律的に操作できます。これは、AIが会話や提案をするだけでなく、実際にタスクを実行できることを意味します。
LAMの強みは、テキスト、音声、画像など、ユーザーの様々な入力内容を理解し、それらの要求を詳細な手順計画に変換できる点にあります。LAMは計画を立てるだけでなく、リアルタイムの状況に応じて行動戦略を調整することもできます。LAMの構築プロセスは主に4つのステップに分かれています。まず、モデルはタスクを論理的なステップに分解することを学習します。次に、より高度なAIシステム(GPT-4oなど)を使用して、これらの計画を具体的な行動に変換する方法を学習します。その後、LAMは独立して新しい解決策を探求し、他のAIシステムでは対処できない問題を解決することさえあります。最後に、報酬メカニズムを用いて微調整トレーニングを行います。
実験では、研究チームはMistral-7BをベースにLAMモデルを構築し、Wordのテスト環境でテストを行いました。その結果、このモデルはタスクを成功させる確率が71%であることが示されました。一方、GPT-4oは視覚情報がない場合の成功率は63%でした。
さらに、LAMはタスク実行速度においても優れた性能を示し、タスクごとにわずか30秒しかかかりませんでしたが、GPT-4oは86秒かかりました。視覚情報を処理する場合、GPT-4oの成功率は75.5%に上昇しますが、全体的にはLAMが速度と効果の両方で顕著な優位性を示しています。
トレーニングデータを作成するために、研究チームは当初、マイクロソフトドキュメント、wikiHowの記事、Bing検索から収集した29,000件のタスクと計画の例を収集しました。その後、GPT-4oを使用して簡単なタスクを複雑なタスクに変換することで、データセットを76,000件に拡張し、150%増加させました。最終的に、約2,000個の成功した行動シーケンスが最終的なトレーニングセットに組み込まれました。
LAMはAI発展における可能性を示していますが、研究チームは、AIの行動が誤る可能性、関連する規制の問題、そして様々なアプリケーションへの拡張と適応における技術的な制約など、いくつかの課題に依然として直面しています。しかし、研究者たちは、LAMがAI発展における重要な転換点を示しており、人工知能アシスタントが人間の実際のタスクをより積極的に支援できるようになることを示唆していると信じています。
要点:
🌟 LAMはWindowsプログラムを自律的に実行でき、従来のAIの会話だけの制限を突破しました。
⏱️ Wordテストにおいて、LAMはタスクを成功させる確率が71%に達し、GPT-4oの63%を上回り、実行速度も速かったです。
📈 研究チームはデータ拡張戦略により、タスク計画のペア数を76,000件に増やし、モデルのトレーニング効果をさらに向上させました。