デジタルコンテンツ制作の分野において、テキスト記述から動画を生成する技術は常に研究のホットトピックです。もし、参照動画から動作をクローンし、それを新しいテキスト記述にシームレスに適用して全く新しい動画コンテンツを作成できたら、どれほど素晴らしいことでしょう!MotionClone技術はまさにこの奇跡を実現します。

image.png

既存のテキストから動画への生成モデル(Text-to-Video、T2V)は一定の進歩を遂げていますが、動作合成においては依然として課題が残されています。従来の手法は、通常、動作の手がかりをエンコードするためにモデルの訓練や微調整が必要ですが、これら手法は未知の動作タイプを処理する場合、しばしば性能が劣ります。

MotionCloneは、訓練不要のフレームワークを提案しています。これは、参照動画から直接動作をクローンして、テキストから動画への生成を制御します。このフレームワークは、時間的注意機構を利用して参照動画内の動作を捉え、主要時間的注意誘導を導入することで、ノイズや小さな動作が注意重みに与える影響を軽減します。さらに、生成モデルが合理的な空間関係を合成し、プロンプトに従う能力を高めるために、位置認識のセマンティック誘導機構を提案しています。

技術のハイライト:

時間的注意機構:動画の逆変換表現を用いて参照動画内の動作を捉えます。

主要時間的注意誘導:時間的注意重みの主要な構成要素のみを用いて、動作誘導による動画生成を行います。

位置認識のセマンティック誘導:参照動画内の前景の粗い位置と、元の分類器なし誘導特徴を用いて、動画生成を誘導します。

数多くの実験を通して、MotionCloneはグローバルなカメラ動作とローカルなオブジェクト動作の両方において優れた能力を示し、動作の忠実度、テキストとの整合性、時間的一貫性において顕著な優位性を示しています。

MotionClone技術の登場は、動画制作分野に革命的な変化をもたらしました。動画コンテンツの生成品質の向上だけでなく、制作効率の大幅な向上も実現します。この技術の更なる発展と改良に伴い、将来の動画制作はよりスマートでパーソナライズされ、「思い描いた通り」の制作ビジョンを実現できるようになるでしょう。

プロジェクトアドレス:https://top.aibase.com/tool/motionclone