魔搭ModelScopeコミュニティは先日、国産オープンソースSora動画生成モデルCogVideoXの大規模バージョンであるCogVideoX-5Bの正式オープンソース化を発表しました。

以前のCogVideoX-2Bと比較して、新しいモデルは動画生成の質と視覚効果が大幅に向上しています。

微信截图_20240828081448.png

CogVideoX-5Bは、大規模DiT(diffusion transformer)モデルに基づいており、テキストから動画を生成するタスク向けに設計されています。3D因果変分自己符号化器(3D causal VAE)と専門家Transformer技術を採用し、テキストと動画の埋め込みを組み合わせ、3D-RoPEを位置符号化として使用し、3D全注意機構によって時空間の統合モデリングを行います。

さらに、漸進的学習技術を採用することで、顕著な動き、一貫性があり、長時間の高品質な動画を生成できます。

モデルリンク:

https://modelscope.cn/models/ZhipuAI/CogVideoX-5b