DiTCtrl

多モーダル拡散トランスフォーマーにおける注意制御を探索し、微調整不要の複数プロンプトによる長尺動画生成を実現

一般製品ビデオ動画生成多モーダル
DiTCtrlは、多モーダル拡散トランスフォーマー(MM-DiT)アーキテクチャに基づく動画生成モデルです。追加の訓練なしで、複数の連続したプロンプトを持つ一貫性のあるシーン動画を生成することに重点を置いています。MM-DiTの注意機構を分析することにより、異なるプロンプト間での正確な意味的制御と注意の共有を実現し、滑らかな遷移と一貫したオブジェクトの動きを持つ動画を生成します。DiTCtrlの主な利点としては、訓練不要、複数プロンプト動画生成タスクに対応可能、そして映画のような遷移効果を示せることが挙げられます。さらに、DiTCtrlは、複数プロンプト動画生成のパフォーマンスを評価するために、新しいベンチマークMPVBenchを提供します。
ウェブサイトを開く

DiTCtrl 代替品