バイトダンスの研究チームが最近発表した第2世代のロボット大規模言語モデルGR-2(Generative Robot 2.0)が、業界で大きな注目を集めています。このスマートロボットは、ロボット大規模言語モデル技術の大きな飛躍を象徴するだけでなく、スマートロボットの応用が新たな時代を迎えることを予感させます。

GR-2の独特な点は、その革新的な学習方法にあります。研究チームは、人間の成長過程を模倣したトレーニング方法を採用し、GR-2に「ロボットの幼児期」のような学習段階を経験させました。事前学習段階では、GR-2は家庭、屋外、オフィスなど、さまざまな日常シーンを網羅した、公開データセットから収集された3800万本ものインターネット動画を「視聴」しました。この独自の「動画学習」方法は、GR-2に豊富な知識を蓄積させ、人間の日常行動パターンや複雑な世界環境を深く理解させました。

image.png

大規模な事前学習の後、開発チームは特別な微調整技術を採用し、GR-2のアクション予測と動画生成能力を大幅に向上させました。「白いお皿の左側からフォークを取る」といった簡単な音声指示だけで、GR-2は正確な動作動画を生成し、簡単にタスクを完了できます。この能力は、ロボットの知的な意思決定と自律的な操作に新たな可能性を開きます。

性能面では、GR-2は印象的な成果を示しました。モデル規模の拡大に伴い、複雑なタスクの処理能力と新しい環境への適応能力が大幅に向上しました。マルチタスク学習テストでは、GR-2は105個のデスクトップタスクを完了し、成功率は97.7%に達しました。さらに注目すべきは、GR-2は既知のタスクだけでなく、全く新しい環境、物体、またはタスクに直面した場合でも、迅速に適応し、解決策を見つけ出すことができる点です。

GR-2のもう一つの大きな特徴は、大規模言語モデルとの連携能力です。例えば、ユーザーがコーヒーを必要とする場合、GR-2はカップを取ること、置くこと、コーヒーを淹れること、そして運んでくることまで、一連のプロセスを自律的に完了し、高度な知能化と自動化レベルを示します。

環境適応性においても、GR-2は優れた性能を示しています。果物や野菜の分類タスクで物品の位置の変化に対応する場合でも、産業用途でエンドツーエンドの物体選別を行う場合でも、GR-2は目標を正確に認識し、タスクを完了できます。この柔軟性と適応能力は、実際の応用において重要な価値を持っています。

image.png

GR-2は多くの面で卓越した性能を示していますが、研究チームは、現実世界の動作データの多様性にはまだ改善の余地があると認識しています。これは、GR-2が静的なロボット大規模言語モデルではなく、様々なタスクを継続的に学習し適応できる知的な存在であり、将来の発展の可能性が非常に大きいことを示しています。

GR-2の登場は、スマートロボット分野に新たな可能性をもたらしました。家庭サービスから産業自動化まで、GR-2が示した技術は、多くの分野で大きな影響を与える可能性があります。技術の進歩と応用シーンの拡大に伴い、GR-2や同様のスマートロボットシステムが、将来私たちの生活や働き方に革命的な変化をもたらすことを期待できます。

プロジェクトアドレス:https://gr2-manipulation.github.io/