高品質で時間連続的なビデオ生成には、特に時間の長さが増すにつれて、膨大な計算資源が必要です。最新の拡散Transformerモデル(DiT)はビデオ生成において著しい進歩を遂げていますが、より大規模なモデルと複雑なアテンションメカニズムに依存するため、推論速度が遅く、この課題をさらに深刻化させています。この問題を解決するため、Meta AIの研究者たちは、ビデオDiTを高速化するAdaCacheという訓練不要な手法を提案しました。
AdaCacheの中核となる考え方は、「すべてのビデオが同じではない」という事実を基にしています。つまり、あるビデオは他のビデオよりも少ないノイズ除去ステップで妥当な品質に到達できるということです。この考えに基づき、この手法は拡散過程における計算結果をキャッシュするだけでなく、各ビデオに対してカスタムメイドのキャッシュ戦略を生成することで、品質と遅延のトレードオフを最大限に最適化します。
研究者たちはさらに、運動正規化(MoReg)スキームを導入しました。これはAdaCache内のビデオ情報を利用し、動きの内容に基づいて計算資源の割り当てを制御します。高周波数のテクスチャと多くの動きを含むビデオシーケンスは、妥当な品質に到達するためにより多くの拡散ステップが必要となるため、MoRegは計算資源をより適切に割り当てることができます。
実験結果によると、AdaCacheは推論速度を大幅に向上させることができます(例えば、Open-Sora 720p -2秒ビデオ生成において最大4.7倍の高速化)。しかも、生成品質を犠牲にすることはありません。さらに、AdaCacheは優れた汎化能力を備えており、Open-Sora、Open-Sora-Plan、Latteなど、さまざまなビデオDiTモデルに適用できます。他の訓練不要な高速化手法(例えば、∆-DiT、T-GATE、PAB)と比較して、AdaCacheは速度と品質の両面で顕著な優位性を示しています。
ユーザー調査によると、他の手法と比較して、ユーザーはAdaCacheで生成されたビデオをより好み、その品質は基準モデルと同等であると考えています。この研究はAdaCacheの有効性を証明し、効率的なビデオ生成分野への重要な貢献となっています。Meta AIは、AdaCacheが広く適用され、高忠実度な長尺ビデオ生成の普及を促進すると確信しています。
論文: https://arxiv.org/abs/2411.02397
プロジェクトホームページ:
https://adacache-dit.github.io/
GitHub: