東京大学の研究者とAlternative Machine社の共同研究により、自然言語コマンドを直接ロボットの動作にマッピングできる人型ロボットシステム「Alter3」が開発されました。このシステムはGPT-4技術をバックエンドモデルとして採用し、自撮りや幽霊の真似など、複雑なタスクを実行できます。

image.png

これは、基礎モデルとロボットシステムを組み合わせた研究成果の一つです。これらのシステムはまだ拡張可能な商業ソリューションの段階にはありませんが、近年、ロボット研究の発展を促進し、大きな可能性を示しています。

Alter3は、GPT-4技術をバックエンドモデルとして使用し、動作の説明やロボットが反応すべき状況を記述した自然言語命令を受け取ります。まず、モデルは「エージェントフレームワーク」を使用して、ロボットが目標を達成するために必要な一連の行動ステップを計画します。次に、エージェントをエンコードすることで、各ステップを実行するためにロボットが必要とするコマンドを生成します。GPT-4はAlter3のプログラミングコマンドのトレーニングを受けていないため、研究者らはそのコンテキスト学習能力を利用して、その動作をロボットのAPIに適応させました。

image.png

そのため、プロンプトにはコマンドリストと、各コマンドの使用方法を示す一連の例が含まれています。その後、モデルは各ステップを1つ以上のAPIコマンドにマッピングし、ロボットに送信して実行します。

研究者らは、人間が「腕をもう少し上げなさい」といったフィードバックを提供できる機能を追加しました。これらの指示は別のGPT-4エージェントに送信され、コードを推論し、必要な修正を行い、動作シーケンスをロボットに返します。改良された行動処方とコードは、将来の使用のためにデータベースに保存されます。

image.png

研究者らは、自撮りやお茶を飲むといった日常的な動作、幽霊や蛇の真似といった模倣動作など、Alter3で様々なテストを行いました。また、綿密な行動計画が必要な状況への対応能力もテストしました。GPT-4は人間の行動や動作に関する広範な知識を持っているため、Alter3などの人型ロボットのために、よりリアルな行動計画を作成することが可能です。研究者の実験では、羞恥心や喜びといった感情をロボットに模倣できることも示されました。

要点:

- 💡 Alter3は、GPT-4技術を用いて推論を行う最新の人型ロボットであり、自然言語命令を直接ロボットの動作にマッピングできます。

- 💡 研究者らは、GPT-4技術のコンテキスト学習能力を利用して、その動作をロボットのAPIに適応させることで、ロボットが必要な一連の行動ステップを実行できるようにしました。

- 💡 人間のフィードバックと記憶を追加することでAlter3の性能を向上させることができ、研究者の実験では、羞恥心や喜びといった感情をロボットに模倣できることも示されました。