パンドラ
自然言語による操作とビデオの状態をサポートする汎用世界モデル
一般製品ビデオ自然言語処理ビデオ生成
パンドラは、ビデオを生成することで世界の状態をシミュレートし、自然言語を使用していつでもビデオの内容を制御できる、汎用世界モデルへの取り組みです。従来のテキストからビデオへのモデルとは異なり、ビデオ生成中に自由にテキストによるアクション入力を受け入れることができ、ビデオのリアルタイム制御を可能にします。このリアルタイム制御機能により、世界モデルはインタラクティブなコンテンツ生成と、強化された堅牢な推論と計画を実現するという約束を果たします。パンドラは、室内/室外、自然/都市、人間/ロボット、2D/3Dなど、複数の領域にわたってビデオを生成できます。さらに、高品質のデータによる指示調整が可能で、ある領域でアクションを学習し、別の未見の領域で使用することができます。パンドラモデルは自己回帰モデルを使用してより長いビデオを生成し、生成されるビデオの長さはトレーニングビデオの長さを超える可能性があります。汎用世界モデルとしての最初のステップであるパンドラには、一貫性のあるビデオの生成、複雑なシーンのシミュレーション、常識や物理法則の理解、指示/アクションへの従順など、まだ限界がありますが、ビデオ生成と自然言語制御において大きな可能性を示しています。
パンドラ 最新のトラフィック状況
月間総訪問数
392
直帰率
92.14%
平均ページ/訪問
1.2
平均訪問時間
00:11:06