高画質、高視覚効果！智譜がCogVideoX-5Bビデオ生成モデルをオープンソース化

AIbase基地

公開日AIニュース · 1 分で読めます · Aug 28, 2024

306

魔搭ModelScopeコミュニティは先日、国産オープンソースSora動画生成モデルCogVideoXの大規模バージョンであるCogVideoX-5Bの正式オープンソース化を発表しました。

以前のCogVideoX-2Bと比較して、新しいモデルは動画生成の質と視覚効果が大幅に向上しています。

微信截图_20240828081448.png

CogVideoX-5Bは、大規模DiT（diffusion transformer）モデルに基づいており、テキストから動画を生成するタスク向けに設計されています。3D因果変分自己符号化器（3D causal VAE）と専門家Transformer技術を採用し、テキストと動画の埋め込みを組み合わせ、3D-RoPEを位置符号化として使用し、3D全注意機構によって時空間の統合モデリングを行います。

さらに、漸進的学習技術を採用することで、顕著な動き、一貫性があり、長時間の高品質な動画を生成できます。

モデルリンク:

https://modelscope.cn/models/ZhipuAI/CogVideoX-5b

智譜清影とAIキャラクター創作プラットフォーム「捏Ta」がマルチモーダル連携を開始 IPの一貫性実現へ

2月19日、北京智譜華章科技有限公司は、同社のマルチモーダル創作プラットフォーム「清影」とAIキャラクター創作プラットフォーム「捏Ta」が戦略的パートナーシップを締結し、AIキャラクターデザインからアニメーション制作までの完全なワークフローを共同で探求し、IPの一貫性を実現するための技術実装を進めると発表しました。今回の連携は、二次元ユーザーのニーズとAIの活用シナリオを深く掘り下げ、ユーザーにより高品質な生成効果と高速な推論速度を提供することを目的としています。

バイトダンスと大学が共同開発！STARモデル：動画の鮮明度と解像度を向上

南京大学の研究チームが、バイトダンス、西南大学と共同で、革新的な技術STAR（Spatial-Temporal Augmentation with Text-to-Video Models）を発表しました。これはテキストから動画を生成するモデルを利用し、現実世界の動画の超解像度処理を実現する技術です。この技術は時空間拡張手法を組み合わせることで、低解像度の動画の画質を効果的に向上させ、特に動画共有プラットフォームからダウンロードした低画質の動画に適しています。

智谱AI、最新版動画モデルCogVideoX v1.5をオープンソース化、10秒4K「新清影」をリリース

本日、智譜テクノロジーチームは最新の動画生成モデルCogVideoX v1.5を発表し、オープンソース化しました。これは8月以来、智譜テクノロジーチームが発表してきたCogVideoXシリーズにおける重要な進歩です。今回のアップデートでは、5秒と10秒の動画の長さ、768Pの解像度、16フレームの生成能力をサポートするなど、動画生成能力が大幅に向上しました。同時に、I2V（画像から動画）モデルは任意のサイズ比率をサポートし、複雑な意味の理解がさらに強化されました。

智譜AI動画生成モデルCogVideoX v1.5オープンソース化 5秒/10秒動画生成に対応

北京智譜華章科技有限公司は、同社のCogVideoXシリーズモデルの最新バージョンであるCogVideoX v1.5を発表し、オープンソース化しました。8月初旬のリリース以来、このシリーズモデルは業界をリードする技術と開発者にとって魅力的な特性により、動画生成分野のトップランナーとなっています。新バージョンCogVideoX v1.5は、元のバージョンを大幅にアップグレードし、動画生成能力が強化され、現在では5秒/10秒、768P、16fpsの動画生成に対応しています。