Google DeepMindは、彼らの秘密兵器——Gemini Roboticsを発表しました!これは単なる家庭用掃除ロボットとはレベルが違います。AIの知恵を真に鉄の体に注入し、ロボットが私たちと同じように(あるいはそれ以上に賢く)物理世界で活躍することを目指しています。

万能な「マルチタスク」

Gemini Roboticsの中核は、高度なGemini 2.0モデルに基づいています。Gemini自体は、テキスト、画像、音声、ビデオを処理する強力な能力を備えていることをご存知でしょうか。

Gemini Roboticsはさらに一歩進み、ロボットに物理空間を理解し行動する「超能力」を与えました。つまり、テキスト指示への対応、目の前の画像の認識、音声の理解、操作ビデオの分析など、Gemini Roboticsはすべて理解し、実際の物理操作に変換することができます。

想像してみてください。これから、口頭で指示を出すか、ロボットに画像を見せるだけで、家事を完璧にこなしてくれるようになるのです。ワクワクしませんか?

Gemini Roboticsで最も注目すべき点は、その汎化能力です。これは、事前に設定されたプログラムしか実行できない「単純な」ロボットではありません。Geminiの強力な世界知識を備えているため、新しい物体、多様な指示、前例のない環境に遭遇しても、迅速に理解し、解決策を見つけ出すことができます。

Googleは、総合的な汎化ベンチマークテストにおいて、Gemini Roboticsの性能が他のトップレベルのビジョン・言語・行動モデルを2倍以上上回ったと誇らしげに発表しています。まるで秀才のようなもので、試験を簡単にこなすだけでなく、応用力も高く、様々な現実の問題を解決できます。今後、緊急事態が発生しても、ロボットが「オフライン」になる心配はもうありません!

QQ_1741834367635.png

「心を察する」頼もしいアシスタント

ヒューマン・コンピュータ・インタラクションにおいても、Gemini Roboticsは驚異的なインタラクティブ性を示しています。日常会話のような指示を理解できるだけでなく、指示の突然の変化や周囲環境の変化にも迅速に対応できます。

さらに素晴らしいのは、最初の指示を受けた後、過剰な介入なしに自律的にタスクを完了できることです。ゆったりとコーヒーを飲みながら、「テーブルを片付けて」と一言言うだけで、Gemini Roboticsはそれを迅速に理解し、水こぼしなどの予期せぬ事態にも柔軟に対応できます。

Gemini Roboticsは「知能」が高いだけでなく、「感情知能」つまり柔軟性も優れています。私たち人間にとって当たり前の繊細な動作は、従来のロボットにとっては大きな課題でした。

しかし、Gemini Roboticsは折り紙、お弁当作り、精巧なサラダ作りなど、繊細な動作と正確な協調性を備え、簡単にこなすことができます。これから、愛情のこもったお弁当を食べたいと思ったら、Gemini Roboticsにレシピを渡すだけで済むかもしれません。

「変幻自在」な高い適応性

さらに驚くべきことに、Gemini Roboticsは多形態適応性を備えています。特定のロボット形態のみに適しているわけではなく、双腕ロボットプラットフォームALOHA2や人型ロボットApptronikのApolloなど、様々なロボットを簡単に制御できます。これは、将来、様々な種類のGemini Robotics搭載のスマートロボットが、様々な分野で独自の役割を果たすことを意味します。

QQ_1741834392508.png

Googleは「万能選手」であるGemini Roboticsに加え、Gemini Robotics-ERも発表しました。「ER」は「具象推論」(Embodied Reasoning)を表しています。

このモデルは、ロボットの物理世界に対する空間認識能力の向上に重点を置いており、既存の低レベルコントローラーと組み合わせることができます。物体認識や3D検出などのGemini 2.0の能力を大幅に向上させることができます。

空間推論とGeminiのコーディング能力を組み合わせることで、Gemini Robotics-ERは新しいロボット機能を「即座に」作成することもできます。例えば、コーヒーカップを見ると、最適な把持方法と安全な移動経路を自律的に判断できます。

もちろん、AIを現実世界に導入する際には、安全性が最優先事項です。Googleは、モータ制御の低レベルから意味理解の高レベルまで、包括的な安全対策を講じていると強調しています。

Gemini Robotics-ERは、ロボットの既存の安全コントローラーと連携し、潜在的な動作の安全性を判断し、適切な応答を生成します。さらに、Googleは、具象AIとロボットのセマンティックセキュリティを評価・向上させるための新しいデータセットASIMOVも発表しました。倫理と安全基準に沿ったGemini Roboticsの発展を確保するために、社内外のエキスパート、政策立案者、責任と安全委員会と緊密に協力しています。

Gemini Roboticsの実用化を加速するために、GoogleはApptronik、Agile Robots、Agility Robotics、Boston Dynamics、Enchanted Toolsなど、多くのロボット企業と連携しています。これらの業界をリードする企業との協力を通じて、近い将来、私たちの生活や仕事の中に、Gemini Roboticsを搭載したスマートロボットが数多く登場することを期待できます。

GoogleのGemini Roboticsは、間違いなく人工知能とロボット工学の分野に新たな活力を吹き込みました。その強力なマルチモーダル理解能力、優れた汎化性、自然なヒューマン・コンピュータ・インタラクション、そして熟練した操作スキルは、スマートロボットの時代が到来しつつあることを示しています。これが「労働者の福音」なのか、それとも「小さな」職業上の課題をもたらすのかは、見守っていくしかありません。結局のところ、賢くて勤勉なロボットアシスタントを誰だって欲しがりますよね?

公式ブログ:https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/