Motion-I2Vは、一貫性があり制御可能な画像から動画への生成(I2V)を実現する、全く新しいフレームワークです。従来の複雑な画像から動画へのマッピングを直接学習する手法とは異なり、Motion-I2VはI2Vを2つの段階に分解し、明示的なモーションモデリングを採用しています。第一段階では、拡散に基づくモーションフィールド予測器を提案し、参照画像ピクセルの軌跡の推論に焦点を当てています。第二段階では、動画潜在拡散モデルにおける限定的な1次元時間的注意機構を強化する、拡張されたモーション強化時間的注意機構を提案しています。このモジュールは、第一段階で予測された軌跡の指示の下、参照画像の特徴を合成フレームに効果的に伝搬させることができます。既存の手法と比較して、Motion-I2Vは、大きな動きや視点の変化が存在する場合でも、より一貫性のある動画を生成できます。第一段階で疎な軌跡制御ネットワークをトレーニングすることにより、Motion-I2Vは、ユーザーが運動軌跡と運動領域を正確に制御することを可能にし、疎な軌跡と領域の注釈による制御機能を備えています。これは、テキストの説明のみに依存するよりも制御可能です。さらに、Motion-I2Vの第二段階は、自然にゼロショット動画から動画への変換をサポートします。定性的および定量的な比較により、Motion-I2Vが、一貫性があり制御可能な画像から動画への生成において、従来の手法を上回ることが示されています。