デジタルメディア時代において、ビデオは自己表現やストーリー共有の主要な手段となっています。しかし、高品質なビデオ制作には、通常、専門的なスキルと高価な機器が必要でした。Snap Videoを使えば、テキストで目的のシーンを記述するだけで、自動的にビデオを生成できます。
現在の画像生成モデルは、卓越した品質と多様性を示しています。このことを受けて、研究者らはこれらのモデルをビデオ生成に応用し始めました。しかし、ビデオコンテンツの高い冗長性から、画像モデルを直接ビデオ生成に応用すると、動作のリアル性、視覚的品質、拡張性が低下する可能性があります。
Snap Videoはビデオ中心のモデルであり、これらの課題を体系的に解決します。まず、空間的および時間的な冗長ピクセルを考慮したEDMフレームワークを拡張し、ビデオ生成を自然にサポートします。次に、U-Netよりも3.31倍高速なトレーニングと4.5倍高速な推論を実現する、トランスフォーマーベースの新規アーキテクチャを提案しています。これにより、Snap Videoは数十億パラメータを持つテキストからビデオへのモデルを効率的にトレーニングすることができ、最先端の結果を初めて達成し、より高品質で、時間的一貫性と動作の複雑さが顕著なビデオを生成します。
技術的ハイライト:
時空間統合モデリング: Snap Videoは、大規模なテキストからビデオへのジェネレーターのセマンティック制御能力を維持しながら、大幅な動きのある一貫性のあるビデオを合成できます。
高解像度ビデオ生成: 2段階の連結モデルを採用し、まず低解像度ビデオを生成してから高解像度でアップサンプリングすることで、潜在的な時間的不整合の問題を回避します。
FITベースのアーキテクチャ: Snap VideoはFIT(Far-reaching Interleaved Transformers)アーキテクチャを利用し、圧縮されたビデオ表現を学習することで、効率的な時空間計算の統合モデリングを実現します。
Snap Videoは、UCF101やMSR-VTTなど広く採用されているデータセットで評価され、動作品質の生成において特に優れた性能を示しました。ユーザー調査でも、Snap Videoはビデオテキストの整合性、動作の数と品質において、最新のメソッドを上回ることが示されています。
論文では、敵対的訓練や自己回帰生成技術に基づく方法、および最近のテキストからビデオへの生成タスクにおける拡散モデルの進歩など、ビデオ生成分野における他の研究についても論じています。
Snap Videoはビデオをファーストクラスの市民として扱うことで、拡散プロセスとアーキテクチャがテキストからビデオへの生成において抱える一般的な問題を体系的に解決します。提案された修正EDM拡散フレームワークとFITベースのアーキテクチャにより、ビデオ生成の品質と拡張性が大幅に向上します。