清華大学の研究チームが、最新の研究成果であるVideo-T1をオープンソース化しました。この技術の中核は、テスト時スケーリング(Test-Time Scaling、TTS)であり、ビデオ生成プロセスの推論段階でより多くの計算資源を投入することで、高価なモデルの再トレーニングを行うことなく、生成ビデオの品質とテキストプロンプトとの整合性を大幅に向上させることを目指しています。この革新的な手法は、ビデオ生成分野に新たな可能性をもたらします。
「テスト時スケーリング」とは何か?
大規模言語モデル(LLMs)の分野では、テスト段階で計算量を増やすことでモデル性能を効果的に向上できることが分かっています。Video-T1はこの考え方を借用し、ビデオ生成分野に応用しました。簡単に言うと、従来のビデオ生成モデルはテキストプロンプトを受け取ると、直接ビデオを生成します。
一方、TTSを採用したVideo-T1は、ビデオ生成中に何度も「検索」と「選別」を行うようなものです。複数の候補ビデオを生成し、「テストバリデータ」を使用して評価を行い、最終的に品質最高のビデオを選択します。これは、精巧な芸術家が最終作品を完成させる前に、さまざまな方法や細部を試行するようなものです。
Video-T1の中核技術
Video-T1はトレーニングコストを直接増やすのではなく、既存モデルの能力をより効果的に活用する方法に焦点を当てています。その中核となる手法は、モデルの「ノイズ空間」内でより最適なビデオ生成軌跡を見つけるものと理解できます。この目標を達成するために、研究チームは2つの主要な検索戦略を提案しました。
ランダム線形探索(Random Linear Search):この方法は、複数のガウスノイズをランダムにサンプリングし、ビデオ生成モデルにこれらのノイズを段階的にデノイズさせて複数の候補ビデオセグメントを生成し、テストバリデータを使用してこれらの候補ビデオを評価し、最終的にスコア最高のビデオを選択します。
フレームツリー探索(Tree-of-Frames、ToF):すべてのフレームを同時に全ステップでデノイズすると膨大な計算コストがかかることを考慮して、ToFはより効率的な戦略を採用しています。ビデオ生成プロセスを3つの段階に分けます。まず、画像レベルのアラインメントを行い、これは後続フレームの生成に影響を与えます。次に、テストバリデータで動的プロンプトを使用して、モーションの安定性と物理的な妥当性に重点を置き、フィードバックに基づいて検索プロセスをガイドします。最後に、ビデオ全体の品質を評価し、テキストプロンプトとの整合性が最も高いビデオを選択します。ToFのような自己回帰的なアプローチは、ビデオ生成の可能性をよりスマートに探求できます。
TTSの顕著な効果
実験結果によると、テスト時の計算量が増加する(つまり、より多くの候補ビデオを生成する)につれて、モデル性能は継続的に向上します。これは、より多くの推論時間を投入することで、同じビデオ生成モデルであっても、より高品質で、テキストプロンプトとより整合性の高いビデオを生成できることを意味します。研究者らは複数のビデオ生成モデルで実験を行い、TTSが安定して性能向上をもたらすことを示しました。同時に、異なるテストバリデータは評価する側面が異なるため、性能向上率と向上度にも違いがあります。
Video-T1のTTS手法は、一般的なプロンプトカテゴリ(シーン、オブジェクトなど)と容易に評価できる次元(画像品質など)で顕著な改善を示しました。公式で提供されているビデオデモを観察すると、TTS処理後のビデオは鮮明さ、ディテール、テキスト記述との整合性が明らかに向上していることが分かります。例えば、「サングラスをかけてプールサイドでライフガードをしている猫」という説明のビデオでは、TTS処理後、猫の像がより鮮明になり、ライフガードの動きもより自然になります。
課題と展望
TTSは多くの点で顕著な進歩をもたらしていますが、研究者らは、モーションの滑らかさや時間的な整合性(画面のちらつきを防ぐなど)など、評価が難しい潜在的な属性については、TTSの改善効果が比較的限定的であることを指摘しています。これは、これらの属性はフレーム間のモーション軌跡を正確に制御する必要があるためであり、現在のビデオ生成モデルはこの点でまだ課題を抱えているためです。
清華大学がオープンソース化したVideo-T1は、革新的なテスト時スケーリング戦略により、ビデオ生成品質の向上のための新しい有効な手段を提供します。高価な再トレーニングを行う必要がなく、推論時の計算資源をよりスマートに活用することで、既存モデルの能力をさらに引き出します。今後の研究の進展に伴い、TTS技術がビデオ生成分野でますます重要な役割を果たすことが期待されます。