智譜AIは、次世代動画生成モデルCogVideoXを発表しました。これは、同社のマルチモーダル技術開発における新たな重要な進歩を示しています。

微信截图_20240726111755.png

CogVideoXの中核となる技術的特徴は以下の通りです。

  1. 三次元変分自己符号化器構造(3D VAE):智譜AIが独自開発したこの構造は、元の動画データを元のサイズの2%に圧縮し、トレーニングコストと難易度を削減します。3D RoPE位置符号化モジュールと組み合わせることで、時間次元におけるフレーム間の関係の把握能力が向上し、動画内の長期的な依存関係を構築します。

  2. エンドツーエンド動画理解モデル:テキストの理解力と指示への従順性を強化し、生成される動画がユーザーのニーズにより合致するようにし、非常に長く複雑なプロンプト指示を処理できます。

  3. テキスト、時間、空間の三次元統合Transformerアーキテクチャ:革新的なExpert Block設計により、テキストと動画モーダリティ空間の整列を実現し、Full Attentionメカニズムによってモーダリティ間の相互作用効果を最適化します。

CogVideoXモデルは、智譜清言のPC版、モバイルアプリ版、ミニプログラム版で利用可能になり、「清影」(Ying)機能を通じて、AIテキスト生成動画と画像生成動画のサービスを無料で体験できます。清影の主な特徴は、高速生成、効率的な指示遵守能力、コンテンツの一貫性、画面の柔軟な調整です。

さらに、智譜大モデルオープンプラットフォームbigmodel.cnにも「清影」が導入され、企業や開発者はAPI呼び出し方式でその機能を利用できます。智譜AIは、動画生成分野におけるスケーリング則の有効性を検証し、データ規模とモデル規模の拡大を継続し、新しいモデルアーキテクチャの研究を行い、より効率的に動画情報を圧縮し、テキストと動画コンテンツをより包括的に融合していきます。

体験アドレス:https://top.aibase.com/tool/qingying-ai-shipinshengchengfuwu