ロボットスタートアップ企業の1X Technologiesは、シミュレーションにおけるロボットシステムのトレーニング効率を向上させる新しい生成モデルを開発しました。同社は新しいブログ記事でこのモデルを発表し、ロボット工学における重要な課題の1つである、ロボットの動作に対する世界の反応の変化を予測できる「1X World Model(世界モデル)」の学習という問題に取り組みました。
この世界モデルは、同じ開始画像シーケンスから出発した場合、異なる動作提案に基づいて、様々な未来のシナリオを想像することができます。
この機能により、剛体の運動、物体の落下効果、カーテンや衣服などの変形物体、ドアや引き出しなどの関節物体との相互作用など、複雑な物体の相互作用を予測できます。
評価は、汎用ロボットを構築する際に非常に現実的で、しばしば見過ごされる課題です。ロボットが1000個のユニークなタスクを実行するように訓練されている場合、新しいモデルが1000個すべてのタスクで改善されているかどうかを判断するのは困難です。背景や照明の変化など、環境のわずかな変化により、古い実験結果の参照価値が失われ、特に動的な家庭やオフィス環境ではこの問題が深刻になります。
この問題を克服するために、1Xは、リアルなセンサーデータから学習することにより、シミュレーターを直接構築し、数百万ものシナリオで1Xのロボットポリシーを評価するという全く新しいアプローチを採用しました。このシミュレーターは、繰り返しテストが可能であるだけでなく、現実世界の複雑さを包括的に取り込むことができます。
1Xのトレーニングでは、人間型ロボットが家庭やオフィスで様々な移動操作タスクを実行する数千時間分のデータが収集されました。これらのデータを通じて、1Xの世界モデルは、観測と動作に基づいて未来のビデオを予測できます。
異なる動作指示の下で、このモデルは多様な結果を生成し、物体相互作用に対する強力なシミュレーション能力を示しています。具体的な動作を提供しなくても、モデルは、運転中に人と障害物を認識して回避するなど、論理的なビデオを生成できます。
さらに、Tシャツの折り畳みなど、より長いタスクのビデオも生成できます。
もちろん、1Xのモデルにも課題があります。例えば、物体相互作用において物体の形状や色が維持されない場合や、場合によっては物体が消えることがあります。
また、物理法則の理解にも限界があり、場合によっては生成されたビデオで物体が空中を浮遊することがあります。
この分野の研究を推進するために、1Xは100時間以上のベクトル量子化ビデオと事前学習済みのベースラインモデルを公開し、複数の段階と賞金を含む1X World Modelチャレンジを発表し、さらなる研究を促進することを目指しています。
要点:
🌟 世界モデルは、ロボットの行動と環境の相互作用を予測できる仮想シミュレーターです。
🤖 リアルデータから学習することで、数百万ものシナリオで評価が可能になり、ロボットの知能が向上します。
💰 研究促進のため、1X World Modelチャレンジを開催し、賞金を提供します。