智譜AI、次世代動画生成モデルCogVideoXを発表　「清影」で無料体験可能

AIbase基地

公開日AIニュース · 1 分で読めます · Jul 26, 2024

366

智譜AIは、次世代動画生成モデルCogVideoXを発表しました。これは、同社のマルチモーダル技術開発における新たな重要な進歩を示しています。

微信截图_20240726111755.png

CogVideoXの中核となる技術的特徴は以下の通りです。

三次元変分自己符号化器構造（3D VAE）：智譜AIが独自開発したこの構造は、元の動画データを元のサイズの2％に圧縮し、トレーニングコストと難易度を削減します。3D RoPE位置符号化モジュールと組み合わせることで、時間次元におけるフレーム間の関係の把握能力が向上し、動画内の長期的な依存関係を構築します。
エンドツーエンド動画理解モデル：テキストの理解力と指示への従順性を強化し、生成される動画がユーザーのニーズにより合致するようにし、非常に長く複雑なプロンプト指示を処理できます。
テキスト、時間、空間の三次元統合Transformerアーキテクチャ：革新的なExpert Block設計により、テキストと動画モーダリティ空間の整列を実現し、Full Attentionメカニズムによってモーダリティ間の相互作用効果を最適化します。

CogVideoXモデルは、智譜清言のPC版、モバイルアプリ版、ミニプログラム版で利用可能になり、「清影」（Ying）機能を通じて、AIテキスト生成動画と画像生成動画のサービスを無料で体験できます。清影の主な特徴は、高速生成、効率的な指示遵守能力、コンテンツの一貫性、画面の柔軟な調整です。

さらに、智譜大モデルオープンプラットフォームbigmodel.cnにも「清影」が導入され、企業や開発者はAPI呼び出し方式でその機能を利用できます。智譜AIは、動画生成分野におけるスケーリング則の有効性を検証し、データ規模とモデル規模の拡大を継続し、新しいモデルアーキテクチャの研究を行い、より効率的に動画情報を圧縮し、テキストと動画コンテンツをより包括的に融合していきます。

体験アドレス：https://top.aibase.com/tool/qingying-ai-shipinshengchengfuwu

ファーウェイ昇騰と階躍星辰、オープンソースのマルチモーダルモデルを発表 AI新分野に進出

先日、魔楽コミュニティ（Modelers）で、階躍星辰が開発したオープンソースのマルチモーダル大規模モデルであるStep-VideoとStep-Audioが正式に公開されました。これらのモデルは、それぞれ動画生成と音声対話に使用され、開発者と企業ユーザーにより強力なAIツールを提供することを目指しています。Step-Videoモデルの正式名称はStep-Video-T2Vで、300億パラメーターという世界最大のオープンソース動画生成モデルです。このモデルは、20秒の動画を直接生成できます。

智譜AIのオープンソース画像生成モデルCogView4、中国語と英語の両言語プロンプトに対応

智譜AIが最新のオープンソース画像生成モデルCogView4を発表しました。CogView4は、6億のパラメータ数を誇り、中国語入力と中国語テキストから画像への生成を全面的にサポートしており、画像の中に漢字を生成できる最初のオープンソースモデルとして注目されています。CogView4は、中国語と英語の両言語プロンプトに対応できる点が最大の特徴であり、特に複雑な中国語指示の理解と遵守に優れており、中国語コンテンツ制作者にとって朗報です。画像の中に漢字を生成できる最初のオープンソース画像生成モデルとして、オープンソース分野における大きな空白を埋めるものです。

智譜AI、10億円超える戦略的資金調達を完了

この資金調達は、国産基盤大規模言語モデルGLMの技術革新とエコシステムの発展を促進するために主に使用されます。国内で最も早く大規模言語モデルをオープンソース化したAI企業である智譜は、AI技術の普及に尽力してきました。今回の資金調達により、浙江省と長三角地域で急速に発展する経済主体へのサービス向上のため、技術開発とエコシステム構築への投資を拡大します。