Googleは、Gemini AIを使用してロボットをトレーニングし、ナビゲーションとタスク実行能力を向上させています。

DeepMindのロボットチームは、新しい研究論文で、Gemini 1.5 Proの長いコンテキストウィンドウを活用することで、ユーザーが自然言語の指示でRT-2ロボットとより簡単にやり取りできるようにする方法を詳しく説明しています。指定されたエリアのビデオツアーを撮影することで、研究者たちはGemini 1.5 Proを使ってロボットにビデオを「視聴」させ、環境を理解させました。これにより、ロボットは観察に基づいて、電源コンセントで充電するようユーザーを案内するなど、命令を実行できるようになりました。

image.png

DeepMindによると、Geminiを搭載したロボットは、9000平方フィート以上の作業エリアで50以上のユーザー指示を成功率90%で実行しました。

さらに、研究者たちは、Gemini 1.5 Proにより、ロボットはナビゲーションだけでなく、指示をどのように実行するかを計画できることも発見しました。例えば、テーブルの上に多くのコーラ缶が置かれている状況で、ユーザーが自分の好きな飲み物があるかどうかロボットに尋ねると、Geminiはロボットに冷蔵庫を確認しに行く必要があることを認識させ、その後ユーザーに結果を報告させました。DeepMindは、これらの結果についてさらに調査を進めると述べています。

研究論文によると、Googleが提供するビデオデモは印象的ですが、論文に示されているように、ロボットはこれらの指示を処理するのに10~30秒かかります。より高度な環境マッピングロボットと家を共有するまでにはまだ時間がかかるかもしれませんが、少なくともこれらのロボットは、紛失した鍵や財布を見つけるのに役立つ可能性があります。

要点:

🤖 Gemini AIがロボットをトレーニングし、ナビゲーションとタスク実行能力を向上

🧠 Gemini 1.5 Proにより、ロボットは自然言語の指示を実行可能に

🔍 研究により、Geminiはロボットがナビゲーションを超えた指示の実行計画を可能にすると判明