VideoWorld
VideoWorldは、ラベルなし動画から知識を学習する深層生成モデルです。
一般製品ビデオ人工知能コンピュータビジョン
VideoWorldは、純粋な視覚入力(ラベルなし動画)から複雑な知識を学習することに特化した深層生成モデルです。自己回帰型動画生成技術を用いて、視覚情報のみからタスクルール、推論、計画能力を学習する方法を探求しています。本モデルの核心的な強みは、革新的な潜在動的モデル(LDM)であり、多段階の視覚変化を効率的に表現することで、学習効率と知識獲得能力を大幅に向上させます。VideoWorldは、囲碁動画やロボット制御タスクにおいて優れた性能を示し、その強力な汎化能力と複雑なタスクへの学習能力を実証しています。本モデルの研究背景は、生物が言語ではなく視覚を通して知識を学習することに着想を得ており、人工知能の知識獲得に新たな道を切り開くことを目指しています。
VideoWorld 最新のトラフィック状況
月間総訪問数
2314
直帰率
67.91%
平均ページ/訪問
1.4
平均訪問時間
00:00:44