先日、アリババは深夜に全く新しいオープンソースの動画生成モデルWan2.1を発表しました。このモデルは140億のパラメータ数を誇り、VBenchランキングでトップに躍り出て、現在動画生成分野のリーダーとなっています。以前発表されたQwQ-Maxとは異なり、Wan2.1は複雑な動きを詳細に処理できる点が優れており、複数の人物が同時に踊る様子をスムーズに生成できるなど、驚異的な性能を見せています。

公式デモでは、Wan2.1は静止画生成における課題、特に文字処理において新たな高みを実現しました。一般ユーザーにとって、140億のパラメータ数は個人向け消費レベルのグラフィックボードでは展開が難しいですが、アリババは1.3億パラメータの小型版も提供しています。この小型版は480P解像度に対応し、12GBのVRAMを搭載した4070グラフィックボードでスムーズに動作します。

脳 大規模モデル

画像出典:AI生成画像、画像ライセンス提供元Midjourney

140億パラメータ版と1.3億パラメータ版に加え、アリババはApache2.0ライセンスを採用した2つの追加動画生成モデルも公開しました。これはユーザーが無料で商用利用できることを意味します。実際には、アリババが提供するプラットフォームからこのモデルにアクセスし、動画を簡単に生成できますが、ユーザー数の急増により、待ち時間が長くなる場合があります。技術的な知識のあるユーザーは、HuggingFaceや魔搭コミュニティなどを通して、自分でインストールして調整することも可能です。

Wan2.1最大の特長は技術革新にあります。このモデルはDiffusion Transformerアーキテクチャを採用し、3D変分オートエンコーダを使用して動画生成用に設計されています。様々な圧縮と並列化戦略を導入することで、品質を維持しながら生成効率を大幅に向上させています。研究によると、Wanの再構築速度は同種の既存技術の2.5倍であり、計算資源を大幅に節約できます。

ユーザーエクスペリエンスの面でも、Wan2.1は高い評価を得ています。動的なシーンの詳細な描写から自然な物理効果まで、その性能は目を見張るものがあります。ユーザーは、このモデルを使用して高品質な動画作品を作成できるだけでなく、文字の動的な表現も容易に実現でき、創作の可能性を広げています。

アリババのWan2.1モデルは、技術的に高度であるだけでなく、幅広いクリエイターに多くの創作の自由度を提供し、動画生成技術の新たな飛躍を象徴しています。