Figure AI、革命的な双腕協調AIモデル「Helix」を発表、ヒューマノイドロボットの未来を切り開く

ロボット技術分野において、アメリカのスタートアップ企業Figure AIは最近、Helixという端末側の大規模言語モデルを発表し、人型ロボット制御技術の大きなブレークスルーとなりました。Helixは、人型ロボットの上半身全体（頭部、胴体、手首、指を含む）を高頻度で連続的に制御できる最初の視覚・言語・動作(VLA)モデルです。これは、ロボットが大量の訓練なしに、自然言語の指示に従って直接タスクを実行できることを意味します。

Figure AIは、視覚言語モデルの汎用性と速度の矛盾を解決するために、2つの補完的なシステムを構築しました。システム1は、毎秒200回の正確な動作を実行できる高速応答の視覚運動戦略モデルであり、システム2は、複雑なシーンと自然言語を理解できるオープンソースの視覚言語モデルです。これらの2つのシステムは、エンドツーエンドのトレーニングを通じて効率的なコミュニケーションを実現し、これまで人型ロボットが多様なタスクを実行する際に直面していた制約を克服しました。

さらにエキサイティングなことに、Helixは単一ロボットでのみ動作するだけでなく、2台のロボットの協調動作を実現できる最初のAIモデルでもあります。一連のデモでは、Helixを搭載した2台のロボットが、見たことのない雑多な物体を前に、協力して分類することに成功しました。タスクを完了するために、ロボット間では視覚的な「確認」を行い、互いに目を合わせて情報伝達の正確性を確保しました。この人間とロボットの協調作業は、Helixの強力な能力を示すだけでなく、将来の人型ロボットと人間とのインタラクションがより自然で効率的になることを示唆しています。