ロボット分野に大きなブレイクスルー到来!星動紀元は最近、独自開発のエンドツーエンドのネイティブロボット大規模言語モデルERA-42を発表し、自社開発の五指を持つ器用な手星動XHAND1と組み合わせることで、具現化された大規模言語モデル1つだけで、100種類以上の複雑で繊細な操作タスクを完了できることを初めて実現しました。これには、ネジを取り上げてドリルで締め付ける、ハンマーで釘を打つ、コップを立て直して水を注ぐといった高度な動作が含まれており、ロボットの知能化レベルが新たな段階に到達したことを示しています。
ERA-42の強みは、その優れた汎用性と器用な操作能力にあります。事前にプログラミングする必要がなく、短時間で新しいタスクを学習できます。少量のデータ収集で、ERA-42は2時間以内に新しいスキルを習得し、さらに多くの新しいタスクを継続的に高速で学習できます。

星動紀元は、具現化された大規模言語モデルが汎用的な具現化された知能体の扉を開く鍵であり、優れた具現化された大規模言語モデルには3つの重要な要素が必要だと考えています。第一に、1つのモデルで様々なタスクと環境を汎化し、視覚、言語、触覚、身体姿勢などの全モダリティ情報を融合することで、異なるタスクと環境への汎化能力を実現すること。第二に、エンドツーエンドで、全モダリティデータの受信から最終的な意思決定と動作の生成まで、シンプルなニューラルネットワークの経路で完了し、人為的な介入なしにリアルタイムで適応すること。第三に、Scaling up(規模拡大)で、継続的なデータ蓄積を通じて自己改善を行い、性能と汎化能力を向上させることです。
エンドツーエンド学習を実現するために、星動紀元は、無標識のビデオデータ、様々なロボットデータ、人間の活動データ、遠隔操作データなどを含む大規模なビデオデータ学習戦略を採用し、その上で行動結果を学習することで、データ収集コストを効果的に削減しました。さらに、星動紀元は世界モデルをネイティブロボット大規模言語モデルに統合することで、ロボットは行動能力だけでなく、物理世界を理解する能力も備え、将来の行動軌跡を予測し、外部の干渉に迅速に対応し、タスク実行中に動作を継続的に最適化します。

従来のクローラロボットと比較して、ERA-42ベースの五指を持つ器用な手星動XHAND1は、より多くのツールを使用でき、より複雑で繊細な操作タスクを実行できます。例えば、簡単なカラーブロックの把持データのトレーニングを受けた後、ERA-42はこれまで見たことのない様々な物体の把持を成功裏に汎化することができます。単一タスクまたは長シーケンスタスクに対しても、ERA-42は強力な耐干渉能力を示しており、モデル規模の拡大に伴い、タスクの成功率も著しく向上します。
汎用的な具現化された知能体を構築するために、星動紀元はAI用に定義された新しいハードウェアプラットフォームも発表しました。星動XHAND1を例にとると、12個の能動自由度を持ち、純粋な電気駆動方式で全自主的な五指関節駆動を実現しています。各指には高解像度の触覚アレイセンサーが装備されており、正確な3次元力触覚と温度情報を提供できます。
ERA-42を活用することで、星動紀元の汎用人型ロボットのタスク実行における汎用性と汎化性が大幅に向上します。これまでに発表された安定した歩行と走行能力、上下肢の協調作業能力と組み合わせることで、潜在的な適用シーンはさらに多様化し、真にネイティブな汎用具現化知能体の産業化を実現する可能性があります。この技術のブレイクスルーは、間違いなくロボットが多くの家庭に入り、様々な業界でより大きな役割を果たすことを加速させるでしょう。