この度、通義は最新の通義万相大模型Wan2.1をオープンソースとして公開しました。Wan2.1は、高品質な動画生成に特化したAIモデルです。複雑な動き処理、現実的な物理法則の再現、映像クオリティの向上、指示への的確な対応において優れた性能を発揮し、クリエイター、開発者、企業ユーザーにとってAI時代を切り開くための最適なツールとなっています。

微信截图_20250226075714.png

権威ある評価指標であるVbenchにおいて、通義万相Wan2.1は86.22%という高得点で首位を獲得し、Sora、Minimax、Luma、Gen3、Pikaなど、国内外の他の著名な動画生成モデルを大きく引き離しました。この成果は、Wan2.1が主流のDiTと線形ノイズ軌跡Flow Matchingパラダイムに基づき、数々の技術革新によって生成能力を飛躍的に向上させたことによるものです。中でも、独自開発の高効率3D因果VAEモジュールは、256倍の無損失動画潜在空間圧縮を実現し、特徴キャッシュ機構により任意の長さの動画を効率的にエンコード・デコードできます。同時に、推論時のメモリ使用量も29%削減しました。さらに、単一のA800 GPU環境下では、既存の最先端手法と比べて動画の再構築速度が2.5倍向上し、顕著な性能優位性を示しています。

Wan2.1の動画Diffusion Transformerアーキテクチャは、Full Attention機構により長時間の時空間依存関係を効果的にモデル化し、高品質で時空間的に一貫性のある動画を生成します。その学習戦略は6段階の段階的学習法を採用しており、低解像度画像データの事前学習から段階的に高解像度動画データの学習へと移行し、最後に高品質なアノテーションデータで微調整することで、様々な解像度や複雑なシーンにおいて優れた性能を発揮します。データ処理においては、4段階のデータクレンジングプロセスを設計し、基礎次元、視覚的品質、運動品質に重点を置き、ノイズの多い初期データセットから高品質で多様なデータを選別し、効率的な学習を促進します。

微信截图_20250226075708.png

モデルの学習と推論効率の最適化においては、Wan2.1は様々な戦略を採用しています。学習段階では、テキスト、動画エンコーディングモジュール、DiTモジュールに対してそれぞれ異なる分散戦略を採用し、効率的な戦略切り替えにより計算の冗長性を回避します。メモリ最適化においては、階層的なメモリ最適化戦略を採用し、PyTorchのメモリ管理機構と組み合わせることでメモリ断片化の問題を解決します。推論段階では、FSDPと2D CPの組み合わせ手法を用いてマルチGPU分散処理による高速化を行い、量子化手法により性能をさらに向上させます。

現在、通義万相Wan2.1はGitHub、Hugging Face、魔搭コミュニティなどのプラットフォームでオープンソースとして公開されており、様々な主流フレームワークに対応しています。開発者や研究者はGradioで簡単に体験したり、xDiTを用いて並列処理による推論を高速化したりできます。また、DiffusersとComfyUIへの統合も加速しており、ワンクリックでの推論と展開プロセスを簡素化し、開発の敷居を下げ、ユーザーに柔軟な選択肢を提供します。迅速なプロトタイプ開発から効率的な本番環境への展開まで、容易に実現できます。

  • Github:https://github.com/Wan-Video

  • HuggingFace:https://huggingface.co/Wan-AI

  • オンライン体験:https://tongyi.aliyun.com/wanxiang