アリババは最近、最新の始終フレーム生成ビデオモデル「Wan2.1-FLF2V-14B」を正式にオープンソース化しました。5秒間の720p高画質ビデオの生成に対応しています。このモデルは、革新的な始終フレーム制御技術により大きな注目を集め、AIビデオ生成分野に新たな可能性をもたらしています。AIbaseの情報によると、このモデルは2025年2月にGitHubとHugging Faceプラットフォームで公開され、世界中の開発者、研究者、企業が無料で利用できるようになりました。これは、アリババによるオープンソースAIエコシステム構築における重要なマイルストーンとなります。

image.png

主要機能:始終フレーム駆動による、滑らかな高画質ビデオ生成

Wan2.1-FLF2V-14Bは、始点と終点のフレームを制御条件として使用します。ユーザーが2枚の画像を提供するだけで、モデルは自動的に5秒間の720p解像度のビデオを生成します。AIbaseの観察によると、生成されたビデオは、モーションの滑らかさと始終フレーム間の遷移において優れたパフォーマンスを示しており、画質のディテールも参照画像を高度に再現し、全体的な内容の一貫性が大幅に向上しています。従来のビデオ生成モデルと比較して、このモデルは正確な条件制御により、長尺ビデオ生成で発生しやすい画面の揺れやコンテンツのずれの問題を解決し、高品質なビデオ制作のための効率的なソリューションを提供します。

技術的ハイライト:CLIPとDiTの融合による生成安定性の向上

AIbaseの分析によると、Wan2.1-FLF2V-14Bは高度な始終フレーム条件制御技術を採用しており、そのコアとなる革新点は以下の通りです:

CLIPによる意味特徴抽出:CLIPモデルを使用して始終フレームの意味情報を抽出し、生成されたビデオの視覚的コンテンツが入力画像と高度に一致することを保証します。

クロスアテンションメカニズム:始終フレームの特徴をDiffusion Transformer(DiT)の生成プロセスに注入し、画質の安定性と時間系列の一貫性を向上させます。

データ駆動型トレーニング:1.5億本のビデオと10億枚の画像という膨大なデータセットに基づいてモデルをトレーニングし、現実の物理法則に沿った動的なコンテンツの生成をサポートします。

これらの技術を組み合わせることで、Wan2.1-FLF2V-14Bは複雑な動きのあるシーンの生成において優れたパフォーマンスを発揮し、特に高忠実度の遷移が必要なクリエイティブなアプリケーションシナリオに適しています。

幅広い用途:コンテンツ制作と研究への貢献

Wan2.1-FLF2V-14Bのオープンソース化は、多くの分野に広範な応用可能性をもたらします。AIbaseは、その主な用途を以下のように整理しました:

映画・広告:高品質なトランジションビデオを迅速に生成し、後処理のコストを削減します。

ゲーム開発:ゲームシーンに動的な過渡アニメーションを生成し、開発効率を向上させます。

教育・研究:研究者がビデオ生成技術を探求し、新しいAIアプリケーションを開発することをサポートします。

パーソナライズされた創作:一般ユーザーは簡単な入力でパーソナライズされた短いビデオを生成し、ソーシャルメディアのコンテンツを豊かにすることができます。

特筆すべきは、このモデルが中国語のプロンプトに対応しており、特に中国語のシーン処理において効果が高いことで、多言語環境への適応能力を示していることです。

導入の容易さ:一般消費者向けハードウェアに対応

Wan2.1-FLF2V-14Bは、ハードウェア要件において高い汎用性を示しています。AIbaseの情報によると、14億パラメーターという大規模なモデルであるにもかかわらず、最適化により、RTX4090などの一般消費者向けGPUを搭載したデバイスで動作し、メモリ消費量はわずか8.19GBです。5秒間の480pビデオの生成には約4分しかかかりません。720pビデオの生成時間も妥当な範囲内に収まっています。さらに、このモデルは詳細な導入ガイドを提供しており、ユーザーは以下のコマンドで迅速に起動できます:

python

python generate.py --task flf2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-FLF2V-14B --first_frame examples/first.jpg --last_frame examples/last.jpg --prompt "A smooth transition from a sunny beach to a starry night"

オープンソースコミュニティは、GradioベースのWeb UIも提供しており、技術に不慣れなユーザーの導入障壁をさらに低減しています。

コミュニティの反応と将来の見通し

公開以来、Wan2.1-FLF2V-14Bはオープンソースコミュニティで熱烈な反響を呼んでいます。開発者は、その生成品質、ハードウェアのフレンドリーさ、オープンソース戦略を高く評価しています。AIbaseは、コミュニティで既にモデルを中心とした二次開発が始まっており、動的な字幕生成や多言語吹き替えなどのより複雑なビデオ編集機能の探求が進められていることに注目しています。将来的には、アリババはモデルのさらなる最適化を行い、より高解像度(8Kなど)とより長いビデオ生成に対応するとともに、ビデオから音声(V2A)などへの応用範囲を拡大する予定です。

プロジェクトアドレス:https://github.com/Wan-Video/Wan2.1