DiTCtrl

多モーダル拡散トランスフォーマーにおける注意制御を探索し、微調整不要の複数プロンプトによる長尺動画生成を実現

一般製品ビデオ動画生成多モーダル

DiTCtrlは、多モーダル拡散トランスフォーマー（MM-DiT）アーキテクチャに基づく動画生成モデルです。追加の訓練なしで、複数の連続したプロンプトを持つ一貫性のあるシーン動画を生成することに重点を置いています。MM-DiTの注意機構を分析することにより、異なるプロンプト間での正確な意味的制御と注意の共有を実現し、滑らかな遷移と一貫したオブジェクトの動きを持つ動画を生成します。DiTCtrlの主な利点としては、訓練不要、複数プロンプト動画生成タスクに対応可能、そして映画のような遷移効果を示せることが挙げられます。さらに、DiTCtrlは、複数プロンプト動画生成のパフォーマンスを評価するために、新しいベンチマークMPVBenchを提供します。

• 訓練不要の複数プロンプト動画生成：DiTCtrlは、追加の訓練なしで、複数の連続したプロンプトに基づいて動画を生成できます。
• 滑らかな遷移と一貫性：動画生成プロセスにおいて、オブジェクトの動きの連続性とシーン間の滑らかな遷移を実現します。
• 多モーダル拡散トランスフォーマーアーキテクチャ：MM-DiTアーキテクチャに基づき、DiTCtrlはUNetと類似した自己注意機構を示し、時間モデリング能力を強化しています。
• 正確な意味的制御：注意機構の分析により、DiTCtrlは異なるプロンプト間での正確な意味的制御を実現できます。
• 動画編集機能：DiTCtrlは、テキストの置換や動画の再ウェイト付けなど、動画編集タスクに適用できます。
• 長尺動画生成：DiTCtrlは、同じ連続したプロンプトを設定することで、単一プロンプトの長尺動画生成にも自然に適用できます。
• 映画のような遷移効果：DiTCtrlは、少年が自転車に乗るシーン描写など、映画のような遷移効果を示すことができます。

ターゲットオーディエンスは、複数のプロンプトとダイナミックなシーンを持つ動画コンテンツを生成する必要がある動画制作者、コンテンツクリエーター、研究者です。DiTCtrlは、複雑な訓練プロセスなしで高品質で一貫性のある動画コンテンツを生成する方法を提供し、同時に動画編集と長尺動画生成も可能にするため、動画制作の効率性と柔軟性を大幅に向上させるため、彼らにとって最適です。

「猫が黒いネズミを見ている」という動画を生成し、異なるプロンプト間の滑らかな遷移を示します。
DiTCtrlを使用して、「海の中の魚」という内容の長尺動画を生成し、動画の一貫性とダイナミックな効果を示します。
DiTCtrlを使用して動画編集を行い、動画内の「白いSUV」を「赤いスポーツカー」に置き換え、同時に動画の元の構図を維持します。

1. 動画生成の入力として、複数の連続した動画プロンプトを用意します。
2. DiTCtrlモデルを使用して、これらのプロンプトをモデルに入力します。
3. モデルは各プロンプトの意味内容を分析し、内部で注意機構の計算を行います。
4. モデルは、複数のプロンプトの動画コンテンツを含む、動画の初期潜在表現を生成します。
5. モデルのノイズ除去プロセスを通じて、全注意機構をマスクガイド付きのKV共有戦略に変換し、ソース動画の動画コンテンツをクエリします。

Best AI Websites & Tools

DiTCtrl

DiTCtrl 代替品

DiTCtrl — 多モーダル拡散トランスフォーマーにおける注意制御を探索し、微調整不要の複数プロンプトによる長尺動画生成を実現

Tora — 軌跡誘導拡散トランスフォーマーによる動画生成

FIFO-Diffusion — 無限長の動画を生成するテキスト条件付き動画生成技術

StoryDiffusion — StoryDiffusionは、一貫性のある画像と動画を生成することで魔法のような物語を生み出せるツールです。

UniVG — 統一多モーダル動画生成システム

HunyuanVideo-I2V — HunyuanVideo-I2Vは、テンセントがHunyuanVideoに基づいて開発した、画像から動画を生成するフレームワークです。

Aya Vision — Aya Visionは、Cohereが提供する多言語・多モーダルなビジュアルモデルであり、多言語環境における視覚とテキストの理解能力の向上を目指しています。

Wan2GP — Wan2GPは、低スペックGPUユーザー向けに設計された、最適化されたオープンソースの動画生成モデルです。様々な動画生成タスクに対応しています。

ViDoRAG — ViDoRAGは、視覚ドキュメント検索を強化した生成のための動的イテレーティブ推論エージェントフレームワークです。

Migician — Migicianは、複数の画像の配置に特化した多モーダル大規模言語モデルであり、自由形式の複数の画像の精密配置を実現できます。

TheoremExplainAgent — TheoremExplainAgentは、マルチモーダルな定理解説動画を生成するためのインテリジェントシステムです。

ComfyUI-WanVideoWrapper — ComfyUI-WanVideoWrapperは、WanVideoのためにComfyUIノードを提供するツールです。

Wan2.1 — Wan2.1は、様々な動画生成タスクに対応する、オープンソースの先進的な大規模動画生成モデルです。

Wan2.1-T2V-14B — Wan2.1-T2V-14Bは、様々な動画生成タスクに対応する高性能なテキストから動画への生成モデルです。

Wan — Wanはアリババの通義实验室が開発した、テキストや画像などから動画を生成できる高度なビジュアル生成モデルです。

JoyGen — JoyGenは、オーディオ駆動型の3D深度感知による話者顔動画編集技術です。

Freepik AI動画ジェネレーター — Freepik AI動画ジェネレーターは、人工知能技術を用いて高品質な動画コンテンツを迅速に生成するツールです。

AIカンフー動画ジェネレーター — Hailuo AI技術を用いて、プロフェッショナルなカンフー動画をオンラインで生成します。

Phantom — Phantomは、クロスモーダルアライメントに基づく、主体の一貫性を維持した動画生成モデルです。

Magma — Magmaは、多様なモーダル入力の理解と実行が可能な基礎モデルであり、複雑なタスクや環境で使用できます。

SkyReels-V1-Hunyuan-I2V — SkyReels V1は、人間中心の高品質映画レベルの動画生成に特化したオープンソースの基礎モデルです。

SkyReels-V1 — SkyReels-V1は、高品質な動画生成に特化した、初のオープンソースの人間中心型動画基礎モデルです。

FlashVideo — FlashVideoは、ディテールと忠実度の高い高解像度動画生成モデルです。

Dream Screen — Dream Screenは、YouTube Shorts向けのAI動画生成ツールで、高品質な動画背景や独立した動画クリップを生成できます。

Adobe Firefly動画生成 — 簡単なプロンプトと画像を使用して動画クリップを生成します。

Krea Chat — Krea Chatは、DeepSeekが提供するAIチャットツールです。Kreaの全機能をチャットインターフェースに統合しています。

デバイス上Sora — デバイス上Soraは、拡散モデルに基づくモバイルデバイス向けテキストから動画生成プロジェクトです。

Goku — Gokuは、高品質な動画生成に特化した、ストリームベースの動画生成基盤モデルです。

ImageToVideo AI — 画像を動画に変換するAIツールです。様々な画像フォーマットに対応し、透かしのない動画を生成します。

VideoWorld — VideoWorldは、ラベルなし動画から知識を学習する深層生成モデルです。