最近、Metaとサウジアラビアのアブドラ国王科学技術大学(KAUST)は共同で、全く新しいビデオ拡散モデルシリーズ「MarDini」を発表しました。このモデルは、高品質なビデオ制作をより簡単かつ柔軟に行えるようにし、ビデオ内の欠損フレームの補完、単一画像からの動画生成、短いビデオクリップへの自然な連続フレームの追加など、様々なタスクを実行できます。
Metaは昨年からの取り組みをさらに強化し、AIによるビデオ生成分野で進歩を遂げています。以前は、テキストからビデオへの変換や編集を行うモデルであるEmu VideoやEmu Editを発表しました。そして今年、MarDiniを発表する前に、高度なビデオエディターであるMovie Genも発表しています。これにより、Metaがビデオ制作者に強力なツールを提供することに注力していることが分かります。
MarDiniの優れた点は、任意の数のマスクフレームに基づいてビデオを生成でき、ビデオ補間、画像からビデオへの変換、ビデオ拡張など、様々な生成タスクに対応できることです。
画像からビデオへの変換結果
MarDiniの主な用途は、画像からビデオへの生成です。中央に配置された参照フレームを条件入力として使用し、16個の追加フレームを生成することでこの機能を実証します。公式の生成ビデオの例では、8FPSでレンダリングされた17フレームが含まれており、スムーズな2秒間のビデオが生成されます。
ビデオ拡張結果
MarDiniは、任意の長さの既存ビデオを調整してビデオを拡張することもできます。5フレームの参照ビデオから2秒間の拡張を生成し、各シーケンスに12個の新しいフレームを追加することで、その機能を示しています。
ビデオ補間結果
MarDiniは、最初のフレームと最後のフレームを調整信号として使用して中間フレームを生成することで、ビデオ補間を実現します。これらの境界フレームが同じ場合、MarDiniはシームレスなループビデオを作成できます。
MarDiniの動作原理は非常に興味深いものです。高度で効率的なビデオ生成技術を採用しており、主に計画モデルと生成モデルの2つの部分で構成されています。まず、計画モデルはマスク自己回帰(MAR)法を使用して低解像度の入力フレームを解釈し、作成する必要があるフレームのガイド信号を生成します。次に、軽量な生成モデルは拡散プロセスを通じて高解像度の詳細なフレームを生成し、最終的なビデオがスムーズで視覚的に良好になるようにします。
多くの複雑な事前学習済み画像モデルを必要とするビデオモデルとは異なり、MarDiniは未ラベルのビデオデータからゼロから学習できると主張しています。これは、トレーニングプロセスにおけるフレームのマスク方法を柔軟に調整する漸進的なトレーニング戦略を採用しているためです。これにより、モデルは様々なフレーム構成にうまく対応できます。
MarDiniの顕著な特徴は、その柔軟性と性能です。強力で効率的であり、より大規模なタスクにも適しています。このモデルは、ビデオ補間、画像からビデオへの生成、ビデオ拡張など、様々なタスクに対応でき、既存のビデオクリップを滑らかにしたり、最初から完全なシーケンスを作成したりすることができます。
性能面では、MarDiniは高品質なビデオを少ないステップで生成することで新たな基準を設け、より複雑な代替手段よりもコストと時間の面で優れています。公式の研究論文では、「私たちの研究は、私たちのモデリング戦略が、複数の補間とアニメーションのベンチマークテストで競争力のあるパフォーマンスを示し、同時に比較可能なパラメーター規模で計算要求を削減することを示しています」と述べています。
プロジェクト入口:https://mardini-vidgen.github.io/
重要なポイント:
✨ MarDiniは、MetaとKAUSTが共同で開発した次世代ビデオ生成モデルであり、様々なビデオ制作タスクを簡単に実行できます。
🎥 このモデルは、計画モデルと生成モデルを組み合わせることで、効率的なビデオ補間と画像からビデオへの生成を実現しています。
💡 MarDiniは、少ないステップで高品質なビデオを生成し、制作の柔軟性と効率性を大幅に向上させています。