研究チームは、人間型ロボットの動きと操作を調整するために設計された、HOVER(Humanoid Omni-functional Controller)と呼ばれる新しいニューラルネットワークの開発という、エキサイティングな進歩を発表しました。このニューラルネットワークは150万個のパラメータを持ち、人間型ロボットの動作と操作の調整を専門としています。

image.png

NVIDIAの上級研究マネージャーであるJim Fan氏は、「すべての基礎モデルが巨大である必要はありません。私たちがトレーニングしたこの150万パラメータのニューラルネットワークは、人間型ロボットの身体を制御することを目的としています」と述べています。さらに、HOVERは人間の動きの潜在的なプロセスを捉えることができ、複雑なタスクを煩雑なプログラミングなしで実行できるようになると説明しました。「人間が歩いたり、バランスを保ったり、自由に四肢を操作したりするには、多くの潜在意識的な処理が必要です」と彼は述べています。

トレーニングにおいて、HOVERはNVIDIAのIsaacシミュレーションプラットフォームを使用しました。このプラットフォームは物理シミュレーションを高速化し、リアルタイムの10000倍の速度を実現します。

Jim Fan氏は、このモデルは仮想環境で1年間トレーニングされましたが、実際には約50分しかかからなかったと明かしました。これは単一のGPUで実行されました。彼は、この効率的なトレーニングにより、ニューラルネットワークが微調整なしで現実世界のアプリケーションにスムーズに移行できるようになったと述べています。

HOVERは、XRデバイス(AppleのVision Proなど)を使用した頭部と手の姿勢の制御、モーションキャプチャとRGBカメラによる全身姿勢の取得、外骨格からの関節角度の取得、ジョイスティックからのルート速度コマンドの取得など、さまざまな高レベルの運動指令に対応できます。Fan氏は、HOVERがさまざまな入力デバイスを制御するロボットに統一されたインターフェースを提供することで、遠隔操作データの収集が容易になることを強調しました。

さらに、HOVERはアップストリームの視覚・言語・動作モデルと統合されており、運動指令を高頻度で低レベルのモーター信号に変換できます。このモデルは、Isaacでシミュレートできるすべての人間型ロボットと互換性があり、ユーザーは簡単にロボットに生命を与えることができます。

今年初めに、NVIDIAはGR00T(Generalist Robot00Technology)というプロジェクトを発表しました。これは人間型ロボット用に設計された汎用基礎モデルです。GR00Tによって駆動されるロボットは、自然言語を理解し、動作を観察することで人間の動作を模倣することができ、現実世界で効果的に相互作用するために必要な協調性、柔軟性などのスキルを迅速に学習できます。

論文URL:https://arxiv.org/pdf/2410.21229

要点:

- 🤖 NVIDIAがHOVERを発表。人間型ロボットの動きと操作を制御することを目的とした、150万パラメータのニューラルネットワークです。

- ⏳ HOVERは仮想環境で1年間トレーニングされましたが、実際のトレーニング時間はわずか50分でした。これにより、現実世界のアプリケーションの効率が向上しました。

- 🎮 HOVERは、さまざまな高レベルの運動指令をサポートし、さまざまな入力デバイスと連携して動作し、ロボット制御に統一されたインターフェースを提供します。