人工知能技術の急速な発展に伴い、画像から動画を生成する(I2V)技術は研究のホットトピックとなっています。最近、Xiaoyu Shi氏、Zhaoyang Huang氏らの研究チームがMotion-I2Vという新しいフレームワークを発表しました。このフレームワークは、明示的なモーションモデリングによって、より一貫性があり制御可能な画像から動画への生成を実現しています。この技術的ブレークスルーは、動画生成の品質と一貫性を向上させるだけでなく、ユーザーに前例のない制御体験をもたらします。

画像から動画を生成する分野では、生成された動画の一貫性と制御性を維持することが長年の課題でした。従来のI2V手法は、画像から動画への複雑なマッピングを直接学習していましたが、Motion-I2Vフレームワークは、このプロセスを2つの段階に革新的に分解し、両方の段階で明示的なモーションモデリングを取り入れています。

第一段階では、Motion-I2Vは拡散ベースのモーションフィールド予測器を提案し、参照画像のピクセルの軌跡を導き出すことに重点を置いています。この段階の鍵となるのは、参照画像とテキストプロンプトを使用して、参照フレームとすべての将来のフレーム間のモーションフィールドマップを予測することです。第二段階では、参照画像の内容を合成フレームに伝播します。革新的なモーション強化時系列レイヤーを導入することで、1次元時系列アテンションを強化し、時間的受容野を拡大し、複雑な時空間パターンを直接学習することの複雑さを軽減しています。

既存の手法との比較において、Motion-I2Vは明確な優位性を示しています。「高速で走行する戦車」、「高速で走行する青いBMW」、「3つの透明な氷の塊」、「這うカタツムリ」など、様々なシーンにおいて、Motion-I2Vはより一貫性のある動画を生成し、広範囲の動きや視点の変化があっても高品質の出力を維持できます。

さらに、Motion-I2Vは、ユーザーが疎な軌跡と領域の注釈を使用して、モーションの軌跡と領域を正確に制御することを可能にし、テキスト指示のみに依存するよりも多くの制御能力を提供します。これは、ユーザーのインタラクション体験を向上させるだけでなく、動画生成のカスタマイズとパーソナライゼーションの可能性も提供します。

image.png

特筆すべきは、Motion-I2Vの第二段階は、ゼロショット動画から動画への変換を自然にサポートしていることです。つまり、トレーニングサンプルがなくても、異なるスタイルや内容の動画変換を実現できます。

image.png

Motion-I2Vフレームワークの発表は、画像から動画を生成する技術が新たな段階に入ったことを示しています。品質と一貫性において顕著な向上を遂げただけでなく、ユーザーの制御性とパーソナライズされたカスタマイズにおいても大きな可能性を示しています。技術の成熟と完成度が向上するにつれて、Motion-I2Vが映画制作、仮想現実、ゲーム開発など多くの分野で重要な役割を果たし、人々に豊かで鮮やかな視覚体験をもたらすと確信しています。

ドキュメントアドレス:https://xiaoyushi97.github.io/Motion-I2V/ 

githubアドレス: https://github.com/G-U-N/Motion-I2V