アリババ、オープンソース動画生成モデルWan 2.1を発表、4070でスムーズに動作

AIbase基地

公開日AIニュース · 1 分で読めます · Feb 27, 2025

15.8k

先日、アリババは深夜に全く新しいオープンソースの動画生成モデルWan2.1を発表しました。このモデルは140億のパラメータ数を誇り、VBenchランキングでトップに躍り出て、現在動画生成分野のリーダーとなっています。以前発表されたQwQ-Maxとは異なり、Wan2.1は複雑な動きを詳細に処理できる点が優れており、複数の人物が同時に踊る様子をスムーズに生成できるなど、驚異的な性能を見せています。

公式デモでは、Wan2.1は静止画生成における課題、特に文字処理において新たな高みを実現しました。一般ユーザーにとって、140億のパラメータ数は個人向け消費レベルのグラフィックボードでは展開が難しいですが、アリババは1.3億パラメータの小型版も提供しています。この小型版は480P解像度に対応し、12GBのVRAMを搭載した4070グラフィックボードでスムーズに動作します。

脳大規模モデル

画像出典：AI生成画像、画像ライセンス提供元Midjourney

140億パラメータ版と1.3億パラメータ版に加え、アリババはApache2.0ライセンスを採用した2つの追加動画生成モデルも公開しました。これはユーザーが無料で商用利用できることを意味します。実際には、アリババが提供するプラットフォームからこのモデルにアクセスし、動画を簡単に生成できますが、ユーザー数の急増により、待ち時間が長くなる場合があります。技術的な知識のあるユーザーは、HuggingFaceや魔搭コミュニティなどを通して、自分でインストールして調整することも可能です。

Wan2.1最大の特長は技術革新にあります。このモデルはDiffusion Transformerアーキテクチャを採用し、3D変分オートエンコーダを使用して動画生成用に設計されています。様々な圧縮と並列化戦略を導入することで、品質を維持しながら生成効率を大幅に向上させています。研究によると、Wanの再構築速度は同種の既存技術の2.5倍であり、計算資源を大幅に節約できます。

ユーザーエクスペリエンスの面でも、Wan2.1は高い評価を得ています。動的なシーンの詳細な描写から自然な物理効果まで、その性能は目を見張るものがあります。ユーザーは、このモデルを使用して高品質な動画作品を作成できるだけでなく、文字の動的な表現も容易に実現でき、創作の可能性を広げています。

アリババのWan2.1モデルは、技術的に高度であるだけでなく、幅広いクリエイターに多くの創作の自由度を提供し、動画生成技術の新たな飛躍を象徴しています。

大規模言語モデルの効率を1.7倍に向上：バイトダンスのCOMET技術がオープンソース化

バイトダンス傘下の豆包大規模言語モデルチームは先日、混合専門家モデル（MoE）アーキテクチャにおける主要なボトルネックを克服し、COMETという名称の重要な最適化技術をオープンソース化したと発表しました。この技術は、大規模言語モデルのトレーニング効率を大幅に向上させ、最大1.7倍の効率向上を実現し、トレーニングコストを40％削減することに成功しました。画像注記：画像はAIによって生成され、画像ライセンス提供サービスMidjourneyを使用しています。COMET技術は、バイトダンスの万規模GPUクラスタトレーニングで実際に適用されており、数百万GPU時間の節約に貢献しています。

ファーウェイ昇騰と階躍星辰、オープンソースのマルチモーダルモデルを発表 AI新分野に進出

先日、魔楽コミュニティ（Modelers）で、階躍星辰が開発したオープンソースのマルチモーダル大規模モデルであるStep-VideoとStep-Audioが正式に公開されました。これらのモデルは、それぞれ動画生成と音声対話に使用され、開発者と企業ユーザーにより強力なAIツールを提供することを目指しています。Step-Videoモデルの正式名称はStep-Video-T2Vで、300億パラメーターという世界最大のオープンソース動画生成モデルです。このモデルは、20秒の動画を直接生成できます。

世界のオフィス75.9％がChatGPTをワークフローに導入 AIによる職場改革

DeskTimeの最新調査によると、ChatGPTは世界中のオフィスで最も広く使用されているAIツールとなり、2024年末までに職場での採用率は75.9％に達すると予想されています。この調査は97社、2385人の従業員を対象に、2023年1月から2024年12月までの期間で行われました。AI技術の発展に伴い、ChatGPTの業務における活用範囲も拡大し、その利便性と効率性から従業員に広く歓迎されています。画像参照

動画トレーニングLoRA登場！Ostrisが20枚の写真で驚きのWan 2.1 LoRAを作成

2025年3月9日、カリフォルニア州——オープンソースモデルによって、テキストから動画を生成する技術がますます魅力的になっています。AI開発者Ostris（@ostrisai）は最近、Xプラットフォームで、自身の20枚ほどの画像を用いてトレーニングしたWan 2.1 LoRAモデルの成果を共有しました。家庭用のRTX4090グラフィックカードを使用するだけで、驚くほど高品質な動画生成を実現しています。この成果はオープンソース技術の可能性を示すだけでなく、Xコミュニティで動画LoRAトレーニングに関する議論を活発化させています。