この度、銀河通用科技公司は北京智源人工知能研究院、北京大学、香港大学と共同で、GraspVLAというエンドツーエンドの具象把握基礎大規模モデルを発表しました。このモデルの登場は、具象知能技術における大きなブレークスルーを意味し、知覚、学習、環境との相互作用の総合的な能力を備えています。

GraspVLAのトレーニングプロセスは、事前トレーニングと事後トレーニングの2段階で構成されています。事前トレーニング段階では10億フレームのデータに基づいており、様々なシーンにおける高い汎化性能とゼロショット学習能力を確保しています。これは、未知の環境やタスクにおいても、優れた把握性能を発揮できることを意味します。この能力の向上は、将来の知能ロボットの実用化における柔軟性と適応性の飛躍的な向上を示唆しています。

ロボット 人工知能 AI

画像出典:AI生成画像、画像ライセンス提供元Midjourney

また、7つの汎化「金標準」も発表されました。これは業界に新たな評価基準を提供するものです。これらの基準は、開発者にとって明確な目標となるだけでなく、研究者にとってモデルの最適化と応用実践の方向性を示すものです。銀河通用は、GraspVLAの発表が、ロボットの自律操作、物体認識、複雑な環境下でのインタラクションを強力に支援すると述べています。

人工知能技術の進歩に伴い、具象把握技術の応用範囲は広がりを見せています。GraspVLAはこの分野の先駆者として、倉庫物流、製造業、医療サービスなど多くの業界で重要な役割を果たすでしょう。将来、ロボットは単純な反復作業に限定されず、様々な環境を学習し適応し、より複雑なタスクを遂行し、人間とより自然なインタラクションを行うことができるようになります。

今回の発表会では、参加機関もこの分野の発展を推進し、より実用的な応用シーンを探求していくことを表明しました。GraspVLAの発表は、知能ロボットが「物を掴むことを理解する」新たな時代への確かな一歩を踏み出したことを象徴しています。