智谱AI视频生成模型CogVideoX v1.5开源支持5/10秒视频生成

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年11月8号 14:57

293

北京智谱华章科技有限公司宣布，其旗下的CogVideoX系列模型推出了最新版本——CogVideoX v1.5，并已对外开源。自8月初发布以来，该系列模型凭借其行业领先的技术和深受开发者喜爱的特性，已经成为视频生成领域的佼佼者。新版本CogVideoX v1.5在原有基础上进行了显著升级，包括增强了视频生成能力，现在支持5/10秒、768P、16帧的视频生成，并且I2V模型能够支持任意尺寸比例，大幅提升了图生视频的质量和复杂语义理解。

微信截图_20241108145545.png

此次开源的内容包括两个模型:CogVideoX v1.5-5B和CogVideoX v1.5-5B-I2V。新版本也将同步上线到清影平台，并与新推出的CogSound音效模型结合，提供质量提升、超高清分辨率支持、可变比例适应不同播放场景、多通道输出以及带声效的AI视频等特色服务。

在技术层面，CogVideoX v1.5通过自动化筛选框架过滤了缺乏动态连通性的视频数据，并采用端到端的视频理解模型CogVLM2-caption生成精准的视频内容描述，提升了文本理解和指令遵循能力。此外，新版本采用了高效的三维变分自编码器（3D VAE）解决内容连贯性问题，并自主研发了融合文本、时间和空间三维度的Transformer架构，取消了传统的跨注意力模块，通过专家自适应层归一化技术优化了扩散模型中时间步信息的利用。

训练方面，CogVideoX v1.5构建了一个高效的扩散模型训练框架，通过多种并行计算和时间优化技术，实现了对长视频序列的快速训练。公司表示，他们已验证了scaling law在视频生成领域的有效性，并计划在未来扩大数据量和模型规模，探索创新模型架构，以更高效地压缩视频信息，并更好地融合文本与视频内容。

代码:https://github.com/thudm/cogvideo

模型:https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

Veo 2震撼登场！Freepik携手谷歌全球首发AI视频新体验

全球知名创意资源平台Freepik宣布与科技巨头谷歌合作，率先在全球范围内推出最新一代AI视频模型——Veo 2。这一重磅消息迅速引发了广泛关注，不少用户纷纷表示，这可能是目前最先进的AI视频生成工具。据介绍，Veo2 由谷歌DeepMind团队研发，是其前代模型Veo的全面升级版。它不仅能生成高达4K分辨率的视频，还能实现长达数分钟的画面内容。更令人惊叹的是，Veo2 在真实感和动画流畅性上达到了新的高度。无论是模拟真实世界的物理效果，还是呈现细腻的人物动作和表情，这款工具都能做

Freepik 率先推出 Veo 2，开启 AI 视频生成新篇章

北京时间，2025 年 2 月 21 日：知名创意平台 Freepik 宣布，其已正式在其平台上推出 Google DeepMind 研发的最新 AI 视频生成模型 Veo 2。这一举措不仅标志着 Freepik 成为全球首家整合 Veo 2 的平台，更打破了地域限制，让非美国居民也能使用这一尖端技术。据 Freepik 官方消息，Veo 2 拥有无与伦比的真实感、精准度和流畅的动画效果，被认为是目前最先进的 AI 视频生成模型。此次与 Google 的合作，使 Freepik 在 AI 创意工具领域再次走在前沿。此前，Veo 2 的使用主要局限于特定地区，而 Freepik 的这一步

智谱清影与AI角色创作平台“捏Ta”开展多模态合作推动IP一致性落地

2月19日，北京智谱华章科技有限公司宣布，其旗下的多模态创作平台“清影”与AI角色创作平台“捏Ta”达成战略合作，共同探索AI角色设计到动画创作的完整路径，并推动IP一致性的技术落地。此次合作旨在深入挖掘二次元用户需求与AI应用场景，为用户提供更高质量的生成效果和更快的推理速度。

谷歌Gemini重磅升级：将内置AI视频生成功能，创作更简单！

谷歌最近宣布，其 AI 助手 Gemini 将迎来一项重大升级，内置视频生成功能，这一功能正在紧锣密鼓地开发中。与谷歌之前推出的 AI 视频生成工具 Google Vids 相比，Gemini 的这一新功能显然更为强大和高效，旨在简化视频创作的流程，让普通用户也能轻松制作出精彩视频。Gemini 的 AI 视频生成功能，将允许用户通过简单的指令或创意输入，快速生成专业水准的视频内容。想象一下，用户只需输入几句文字描述，Gemini 便能够为其创作出一段生动的视频，无论是用于社交媒体、教育还是商业推广。

AI新闻资讯

智谱AI视频生成模型CogVideoX v1.5开源 支持5/10秒视频生成