Lumiere
時空間拡散モデルによるビデオ生成
一般製品ビデオビデオ合成テキストからビデオ
Lumiereは、リアルで多様性があり、連続した動きを示すビデオを合成することを目的とした、テキストからビデオへの拡散モデルです。ビデオ合成における主要な課題の解決を目指しています。本モデルでは、ビデオ全体の時間的持続を一度に生成できる時空間U-Netアーキテクチャを導入しました。これは、遠距離のキーフレームを合成し、その後時間的超解像度処理を行う既存のビデオモデルとは対照的であり、この手法ではグローバルな時間的一貫性を達成することが本質的に困難です。空間と(重要なことですが)時間のダウンサンプリングとアップサンプリングを導入し、事前学習済みのテキストから画像への拡散モデルを活用することで、当モデルは全フレームレートの低解像度ビデオを複数の時空間スケールで直接生成することを学習します。最先端のテキストからビデオへの生成結果を示し、当モデルの設計が、画像からビデオ、ビデオ修復、スタイル変換生成など、様々なコンテンツ制作タスクやビデオ編集アプリケーションを容易に促進することを示します。
Lumiere 最新のトラフィック状況
月間総訪問数
29742941
直帰率
44.20%
平均ページ/訪問
5.9
平均訪問時間
00:04:44