深層学習の急速な発展は、大規模なデータセット、モデル、計算能力なしには成り立ちません。自然言語処理やコンピュータビジョン分野では、研究者らはモデルの性能とデータ規模の間に冪乗則関係があることを発見しました。しかし、ロボット工学、特にロボット操作の分野では、同様の大規模な法則はまだ確立されていません。

清華大学の研究チームは最近、ロボット模倣学習におけるデータ規模の法則について考察し、効率的なデータ収集戦略を提案した論文を発表しました。この戦略では、たった半日で十分なデータを収集し、新しい環境や物体において約90%の成功率を達成しました。

image.png

研究者らは、汎化能力を環境汎化と物体汎化の2つの次元に分けて、様々な環境と異なる物体上で人間によるデモンストレーションデータを手持ちの夾雑器を用いて収集し、拡散戦略を用いてこれらのデータをモデル化しました。研究者らはまず、水を注ぐこととマウスを置くことの2つのタスクに注目し、新しい環境や物体における戦略の性能が、訓練環境や物体の数の増加に伴ってどのように変化するかを分析することで、データ規模の法則をまとめました。

研究結果は以下の通りです。

新しい物体、新しい環境、またはその両方に対する戦略の汎化能力は、それぞれ訓練物体、訓練環境、または訓練環境と物体の組み合わせの数に冪乗則関係を示します。

各環境や物体のデモンストレーション数を増やすよりも、環境と物体の多様性を増やす方が効果的です。

できるだけ多くの環境(例えば32個の環境)でデータ収集を行い、各環境に独自の操作対象と50個のデモンストレーションがあれば、高い汎化能力を持つ戦略(成功率90%)を訓練することができ、新しい環境や物体でも動作します。

これらのデータ規模の法則に基づいて、研究者らは効率的なデータ収集戦略を提案しました。彼らは、できるだけ多くの異なる環境でデータ収集を行い、各環境では1つの固有の物体だけを使用することを推奨しています。環境と物体の組み合わせの総数が32個に達すれば、通常、新しい環境で操作し、以前見たことのない物体と対話できる戦略を訓練するのに十分です。各環境と物体の組み合わせに対して、50個のデモンストレーションを収集することを推奨しています。

データ収集戦略の普遍的な適用性を検証するために、研究者らはそれを2つの新しいタスク(タオルを折りたたむことと充電器を抜くこと)に適用しました。その結果、この戦略はこれらの2つの新しいタスクでも、高い汎化能力を持つ戦略を訓練できることが示されました。

この研究は、比較的少ない時間と資源の投入で、あらゆる環境や物体に対してゼロショットで展開できる単一タスク戦略を学習できることを示しています。研究者らのこの分野における取り組みをさらに支援するために、清華大学チームはコード、データ、モデルを公開し、この分野のさらなる研究を促進し、最終的に複雑で開かれた世界の課題を解決できる汎用ロボットを実現することを期待しています。

論文アドレス:https://arxiv.org/pdf/2410.18647