智譜AI動画生成モデルCogVideoX v1.5オープンソース化 5秒/10秒動画生成に対応

AIbase基地

公開日AIニュース · 1 分で読めます · Nov 8, 2024

293

北京智譜華章科技有限公司は、同社のCogVideoXシリーズモデルの最新バージョンであるCogVideoX v1.5を発表し、公開しました。8月初旬のリリース以来、このシリーズモデルは業界をリードする技術と開発者に人気の機能により、動画生成分野のトップランナーとなっています。新バージョンCogVideoX v1.5は、元のバージョンを大幅にアップグレードし、動画生成能力を強化しました。現在、5/10秒、768P、16フレームの動画生成に対応し、I2Vモデルは任意のサイズ比率に対応できるようになり、画像から動画への生成の品質と複雑な意味の理解が大幅に向上しました。

微信截图_20241108145545.png

今回公開されたのは、CogVideoX v1.5-5BとCogVideoX v1.5-5B-I2Vの2つのモデルです。新バージョンは清影プラットフォームにも同時に公開され、新たにリリースされたCogSound音響効果モデルと組み合わせることで、品質向上、超高解像度サポート、様々な再生シーンに対応可能な可変比率、マルチチャンネル出力、そして音響効果付きAI動画などの特色あるサービスを提供します。

技術面では、CogVideoX v1.5は自動化された選別フレームワークによって動的な接続性のない動画データをフィルタリングし、エンドツーエンドの動画理解モデルCogVLM2-captionを使用して正確な動画コンテンツの説明を生成することで、テキスト理解と指示遵守能力を向上させています。さらに、新バージョンでは効率的な三次元変分自己符号化器（3D VAE）を採用してコンテンツの一貫性の問題を解決し、テキスト、時間、空間の三次元を融合したTransformerアーキテクチャを独自開発しました。従来のクロスアテンションモジュールを廃止し、専門家適応層正規化技術により拡散モデルにおける時間ステップ情報の活用を最適化しています。

トレーニング面では、CogVideoX v1.5は効率的な拡散モデルトレーニングフレームワークを構築し、様々な並列計算と時間最適化技術により、長尺動画シーケンスの高速トレーニングを実現しました。同社は、スケーリング則が動画生成分野で有効であることを検証しており、今後データ量とモデル規模を拡大し、革新的なモデルアーキテクチャを探求することで、動画情報のより効率的な圧縮とテキストと動画コンテンツのより良い融合を目指すと発表しています。

コード: https://github.com/thudm/cogvideo

モデル: https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

ファーウェイ昇騰と階躍星辰、オープンソースのマルチモーダルモデルを発表 AI新分野に進出

先日、魔楽コミュニティ（Modelers）で、階躍星辰が開発したオープンソースのマルチモーダル大規模モデルであるStep-VideoとStep-Audioが正式に公開されました。これらのモデルは、それぞれ動画生成と音声対話に使用され、開発者と企業ユーザーにより強力なAIツールを提供することを目指しています。Step-Videoモデルの正式名称はStep-Video-T2Vで、300億パラメーターという世界最大のオープンソース動画生成モデルです。このモデルは、20秒の動画を直接生成できます。

動画トレーニングLoRA登場！Ostrisが20枚の写真で驚きのWan 2.1 LoRAを作成

2025年3月9日、カリフォルニア州——オープンソースモデルによって、テキストから動画を生成する技術がますます魅力的になっています。AI開発者Ostris（@ostrisai）は最近、Xプラットフォームで、自身の20枚ほどの画像を用いてトレーニングしたWan 2.1 LoRAモデルの成果を共有しました。家庭用のRTX4090グラフィックカードを使用するだけで、驚くほど高品質な動画生成を実現しています。この成果はオープンソース技術の可能性を示すだけでなく、Xコミュニティで動画LoRAトレーニングに関する議論を活発化させています。

腾讯开源全新图像转视频模型HunyuanVideo-I2V

A Tencent anunciou o lançamento de código aberto de sua nova estrutura de geração de vídeo a partir de imagem — HunyuanVideo-I2V. O lançamento deste modelo representa mais um avanço importante após o sucesso do lançamento de código aberto do HunyuanVideo, e visa impulsionar a exploração aprofundada da comunidade de código aberto. O HunyuanVideo-I2V incorpora tecnologias avançadas de geração de vídeo, permitindo a transformação de imagens estáticas em conteúdo de vídeo dinâmico, oferecendo mais possibilidades aos criadores. O HunyuanVideo-I2V utiliza um pré-treinamento...

AIニュース

智譜AI動画生成モデルCogVideoX v1.5オープンソース化 5秒/10秒動画生成に対応

AIbase基地

関連AIニュースの推奨

ファーウェイ昇騰と階躍星辰、オープンソースのマルチモーダルモデルを発表 AI新分野に進出

動画トレーニングLoRA登場！Ostrisが20枚の写真で驚きのWan 2.1 LoRAを作成

アリババのAIビデオモデル通義万象（Wanxiang）が独立ウェブサイトをローンチ

腾讯开源全新图像转视频模型HunyuanVideo-I2V