北京智譜華章科技有限公司は、同社のCogVideoXシリーズモデルの最新バージョンであるCogVideoX v1.5を発表し、公開しました。8月初旬のリリース以来、このシリーズモデルは業界をリードする技術と開発者に人気の機能により、動画生成分野のトップランナーとなっています。新バージョンCogVideoX v1.5は、元のバージョンを大幅にアップグレードし、動画生成能力を強化しました。現在、5/10秒、768P、16フレームの動画生成に対応し、I2Vモデルは任意のサイズ比率に対応できるようになり、画像から動画への生成の品質と複雑な意味の理解が大幅に向上しました。
今回公開されたのは、CogVideoX v1.5-5BとCogVideoX v1.5-5B-I2Vの2つのモデルです。新バージョンは清影プラットフォームにも同時に公開され、新たにリリースされたCogSound音響効果モデルと組み合わせることで、品質向上、超高解像度サポート、様々な再生シーンに対応可能な可変比率、マルチチャンネル出力、そして音響効果付きAI動画などの特色あるサービスを提供します。
技術面では、CogVideoX v1.5は自動化された選別フレームワークによって動的な接続性のない動画データをフィルタリングし、エンドツーエンドの動画理解モデルCogVLM2-captionを使用して正確な動画コンテンツの説明を生成することで、テキスト理解と指示遵守能力を向上させています。さらに、新バージョンでは効率的な三次元変分自己符号化器(3D VAE)を採用してコンテンツの一貫性の問題を解決し、テキスト、時間、空間の三次元を融合したTransformerアーキテクチャを独自開発しました。従来のクロスアテンションモジュールを廃止し、専門家適応層正規化技術により拡散モデルにおける時間ステップ情報の活用を最適化しています。
トレーニング面では、CogVideoX v1.5は効率的な拡散モデルトレーニングフレームワークを構築し、様々な並列計算と時間最適化技術により、長尺動画シーケンスの高速トレーニングを実現しました。同社は、スケーリング則が動画生成分野で有効であることを検証しており、今後データ量とモデル規模を拡大し、革新的なモデルアーキテクチャを探求することで、動画情報のより効率的な圧縮とテキストと動画コンテンツのより良い融合を目指すと発表しています。