チャイナZ(ChinaZ.com)6月17日 消息:北京大学と快手AIチームは共同で、複雑な動画生成の課題を克服することに成功しました。彼らはVideoTetrisという新しいフレームワークを提案し、まるでパズルのように様々な細部を簡単に組み合わせ、難易度が高く、指示が複雑な動画を生成できます。このフレームワークは、複雑な動画生成タスクにおいて、Pika、Gen-2などの商用モデルを凌駕しました。

VideoTetrisフレームワークは、組み合わせ動画生成タスクを初めて定義しました。これには2つのサブタスクが含まれます。1)複雑な組み合わせ指示に従った動画生成;2)段階的な組み合わせ式多物体指示に従った長尺動画生成。チームは、ほぼすべての既存のオープンソースモデルと商用モデルが正しい動画を生成できなかったことを発見しました。例えば、「左側に可愛い茶色の犬、右側に日光浴をしている猫が居眠りしている」という入力に対して、生成された動画はしばしば2つの物体の情報を融合し、奇妙な見た目になっていました。

QQ截图20240617104639.jpg

これに対し、VideoTetrisはすべての位置情報と詳細な特徴を成功裏に保持できます。長尺動画生成においては、「可愛い茶色のリスが榛の実の山にいる状態から、可愛い茶色のリスと可愛い白いリスが榛の実の山にいる状態へ移行する」といった、より複雑な指示に対応できます。生成された動画の順序は入力指示と一致し、2匹のリスは自然にエサを交換することもできます。

VideoTetrisフレームワークは、時空間組み合わせ拡散法を採用しています。まず、テキストプロンプトを時間的に分解し、異なる動画フレームに異なるプロンプト情報を割り当てます。次に、各フレームで空間次元の分解を行い、異なる物体を異なる動画領域に対応付けます。最後に、時空間クロスアテンションを使用して組み合わせを行い、効率的な組み合わせ指示生成を実現します。

より高品質な長尺動画を生成するために、チームは強化されたトレーニングデータ前処理方法も提案し、長尺動画生成をより動的で安定したものにしました。さらに、参照フレームアテンションメカニズムを導入し、ネイティブVAEを使用して以前のフレーム情報をエンコードしました。これは、他のモデルがCLIPエンコーディングを使用する方法とは異なり、より良い内容の一貫性を獲得できます。

最適化の結果、長尺動画は広範囲の色ずれ現象がなくなり、複雑な指示にもより適応できるようになり、生成される動画はよりダイナミックで自然なものになりました。チームはまた、新しい評価指標VBLIP-VQAとVUnidetを導入し、組み合わせ生成評価方法を初めて動画次元まで拡張しました。

実験テストによると、組み合わせ動画生成能力において、VideoTetrisモデルはすべてのオープンソースモデル、さらにはGen-2やPikaなどの商用モデルを上回るパフォーマンスを示しました。なお、このコードは完全にオープンソース化される予定です。

プロジェクトアドレス:https://top.aibase.com/tool/videotetris