智譜AIは、ビデオ生成モデルCogVideoXをオープンソース化することを発表しました。これは、ビデオ生成技術の急速な発展と応用を促進することを目的としています。CogVideoXモデルは、高度な大規模モデル技術に基づいており、商用アプリケーションのニーズを満たすことができます。現在オープンソース化されているCogVideoX-2Bバージョンは、FP-16精度での推論にわずか18GBのVRAMしか必要とせず、微調整には40GBのVRAMが必要です。そのため、単一の4090グラフィックカードで推論を実行でき、単一のA6000グラフィックカードで微調整を実行できます。

CogVideoXモデルは、3D変分オートエンコーダ(3D VAE)技術を採用しています。3次元畳み込みによってビデオの空間次元と時間次元の両方を同時に圧縮することで、より高い圧縮率と優れた再構成品質を実現しています。モデル構造には、エンコーダ、デコーダ、潜在空間正規化器が含まれており、時間因果畳み込みによって情報の因果関係が保証されています。さらに、専門的なTransformer技術を使用してエンコードされたビデオデータを処理し、テキスト入力と組み合わせて高品質のビデオコンテンツを生成します。

微信截图_20240806095428.png

CogVideoXモデルのトレーニングのために、智譜AIは高品質のビデオデータを選別する方法を開発しました。過剰な編集やモーションの不連続性などの問題のあるビデオを除外することで、モデルトレーニングのデータ品質を確保しています。同時に、画像キャプションからビデオキャプションを生成するパイプラインを通じて、ビデオデータにテキスト記述がないという問題を解決しました。

性能評価において、CogVideoXは、人間の動作、シーン、動きの程度など、複数の指標で優れた性能を示しており、ビデオのダイナミックな特性に焦点を当てた評価ツールも使用されています。智譜AIは、新しいモデルアーキテクチャ、ビデオ情報の圧縮、テキストとビデオコンテンツの融合など、ビデオ生成分野のイノベーションを継続的に探求していきます。

コードリポジトリ:

https://github.com/THUDM/CogVideo

モデルダウンロード:

https://huggingface.co/THUDM/CogVideoX-2b

技術レポート:

https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf