本日、アリババは自社開発の動画生成モデル「万相2.1」の全面オープンソース化を発表しました。14Bパラメータと1.3Bパラメータの2つのバージョンが公開されました。14Bパラメータのプロフェッショナル版は、高性能で業界トップクラスの表現力を備え、非常に高い動画品質が求められるシーンに適しています。一方、1.3Bパラメータの高速版は、消費レベルのグラフィックボードでも使用でき、8.2GBのVRAMで480Pの高画質動画生成が可能です。二次開発や学術研究にも最適です。

画像

公式の説明によると、今回オープンソース化されたWan2.1は、複雑な動き処理、現実的な物理法則の再現、映画のような質感の向上、指示の遵守の最適化において顕著な利点を示しており、クリエイター、開発者、企業ユーザーの多様なニーズを満たすことができます。通義万相を利用することで、ユーザーは簡単に高品質な動画を生成でき、特に広告や短編動画分野において、高い創造性を求めるニーズに応えることができます。

権威ある評価指標であるVBenchにおいて、通義万相は86.22%の高得点を獲得し、Sora、Minimax、Lumaなどの国内外の他の動画生成モデルを大きく上回りました。この評価は、主流のDiTと線形ノイズ軌跡Flow Matching方式に基づいており、一連の技術革新によりモデルの生成能力が向上しています。特に、独自開発の高効率3D因果VAEモジュールは、256倍の損失のない動画潜在空間圧縮を実現し、任意の長さの動画の高効率な符号化と復号をサポートします。

QQ_1740534242356.png

通義万相は動画生成において、主流のDiT構造に基づいたFull Attentionメカニズムを採用し、時空間依存性を効果的にモデル化することで、生成される動画の高品質と一貫性を確保しています。モデルの学習戦略には6段階の段階的学習法が採用されており、まず低解像度のデータから学習を始め、段階的に高解像度のデータを取り入れることで、様々な条件下での優れた性能を保証しています。さらに、通義万相はデータ処理においても厳格なクレンジングプロセスを採用し、学習データの高品質を確保しています。

学習と推論効率の最適化において、通義万相は分散学習戦略、活性化関数の最適化、VRAM管理などの様々な先進技術を採用し、モデル学習の安定性と推論効率を確保しています。アリババクラウドのトレーニングクラスタのインテリジェントなスケジューリングと組み合わせることで、モデルは学習中に自動的に障害を検出し、迅速に再起動することで、学習プロセスの円滑な進行を保証します。

通義万相2.1はGitHub、Hugging Faceなどのプラットフォームでオープンソース化されており、様々な主流フレームワークをサポートし、開発者や研究者にとって使いやすい環境を提供します。迅速なプロトタイプ開発から効率的な本番環境への展開まで、通義万相は様々なユーザーのニーズを満たし、動画生成技術の発展に新たな活力を吹き込みます。

QQ_1740534298370.png

魔塔コミュニティ入口:https://modelscope.cn/organization/Wan-AI

要点:

🌟 通義万相2.1オープンソース化、多様な動画生成ニーズに対応。

🏆 VBench評価で86.22%の高得点で首位を獲得、他モデルを凌駕。

🚀 段階的学習と様々な技術最適化により、生成効率と品質を向上。