本日、智譜AIチームは最新の動画生成モデルCogVideoX v1.5を発表し、オープンソース化しました。これは8月以来、智譜AIチームが発表してきたCogVideoXシリーズにおける重要な進歩です。
今回のアップデートでは、動画生成能力が大幅に向上しました。具体的には、5秒と10秒の動画の長さ、768Pの高解像度、16fpsの生成に対応しています。また、I2V(画像から動画)モデルは任意のアスペクト比に対応し、複雑な意味の理解能力がさらに向上しました。
CogVideoX v1.5には、CogVideoX v1.5-5BとCogVideoX v1.5-5B-I2Vの2つの主要モデルが含まれており、開発者にさらに強力な動画生成ツールを提供することを目的としています。
さらに注目すべきは、CogVideoX v1.5が清影プラットフォームにも同時に搭載され、新しく発表されたCogSound音響効果モデルと連携して「新清影」となることです。新清影では、動画品質の大幅な向上、美的表現と動きの自然さ、10秒、4K、60fpsの超高画質動画生成などを含む、様々な特色あるサービスを提供します。
公式の説明は以下の通りです:
品質向上:画像から動画への変換における品質、美的表現、動きの自然さ、そして複雑な指示語の解釈能力が大幅に向上しました。
超高解像度:10秒、4K、60fpsの超高画質動画の生成に対応しました。
可変アスペクト比:任意のアスペクト比に対応し、様々な再生環境に対応できます。
マルチチャンネル出力:同じ指示/画像から一度に4つの動画を生成できます。
音響効果付きAI動画:新清影では、映像に合わせた音響効果を生成できます。
データ処理においては、CogVideoXチームはデータ品質の向上に注力し、不良な動画データをフィルタリングするための自動選別フレームワークを開発しました。また、正確なコンテンツ記述を生成するためのエンドツーエンドの動画理解モデルCogVLM2-captionも発表しました。このモデルは複雑な指示を効果的に処理し、生成された動画がユーザーのニーズに合致することを保証します。
コンテンツの一貫性を向上させるため、CogVideoXは効率的な三次元変分自己符号化器(3D VAE)技術を採用し、トレーニングコストと難易度を大幅に削減しました。さらに、チームはテキスト、時間、空間の三次元を融合したTransformerアーキテクチャを開発し、従来のクロスアテンションモジュールを除去することで、テキストと動画の相互作用効果を高め、動画生成の品質を向上させました。
今後、智譜AIチームはデータ量とモデル規模の拡大を続け、より効率的なモデルアーキテクチャを探求し、より高品質な動画生成体験を実現していきます。CogVideoX v1.5のオープンソース化は、開発者に強力なツールを提供するだけでなく、動画制作分野に新たな活力を注入します。
コード:https://github.com/thudm/cogvideo
モデル:https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT
要点:
🌟 新版CogVideoX v1.5オープンソース化、5/10秒動画、768P解像度、16fps生成に対応。
🎨 新清影プラットフォーム上线、CogSound音響効果モデルと連携し、超高画質4K動画生成を提供。
📈 データ処理とアルゴリズムの革新により、生成動画の品質と一貫性を確保。