智谱AI开源最新版视频模型CogVideoX v1.5，上线10秒4K"新清影"

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Nov 8, 2024

827

今日，智谱技术团队发布了其最新的视频生成模型 CogVideoX v1.5，并将其开源。这一版本是自8月以来，智谱技术团队推出的 CogVideoX 系列中的又一重要进展。

据了解，此次更新大幅提升了视频生成能力，包括支持5秒和10秒的视频长度、768P 的分辨率以及16帧的生成能力。同时，I2V（图像到视频）模型也支持任意尺寸比例，进一步增强了复杂语义的理解能力。

CogVideoX v1.5包含两个主要模型:CogVideoX v1.5-5B 和 CogVideoX v1.5-5B-I2V，旨在为开发者提供更强大的视频生成工具。

更值得关注的是，CogVideoX v1.5将同步上线至清影平台，并与新推出的 CogSound 音效模型结合，成为 “新清影”。新清影将提供多项特色服务，包括视频质量的显著提升、美学表现和运动合理性，支持生成10秒、4K、60帧的超高清视频。

官方介绍如下:

质量提升:在图生视频的质量、美学表现、运动合理性以及复杂提示词语义理解方面能力显著增强。
超高清分辨率:支持生成10s、4K、60帧超高清视频。
可变比例:支持任意比例，从而适应不同的播放场景。
多通道输出:同一指令/图片可以一次性生成4个视频。
带声效的 AI 视频:新清影可以生成与画面匹配的音效。

在数据处理方面，CogVideoX 团队专注于提升数据质量，开发了自动化筛选框架以过滤不良视频数据，并推出了端到端的视频理解模型 CogVLM2-caption，以生成精准的内容描述。这一模型能够有效处理复杂的指令，确保生成的视频与用户需求相符。

为了提升内容连贯性，CogVideoX 采用了高效的三维变分自编码器（3D VAE）技术，显著降低了训练成本与难度。此外，团队还研发了融合文本、时间和空间三维度的 Transformer 架构，通过去除传统的跨注意力模块，增强了文本和视频的交互效果，提升了视频生成的质量。

未来，智谱技术团队将继续扩大数据量和模型规模，探索更高效的模型架构，以实现更优质的视频生成体验。CogVideoX v1.5的开源不仅为开发者提供了强大的工具，也为视频创作领域注入了新的活力。

代码:https://github.com/thudm/cogvideo

模型:https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

划重点:
🌟 新版 CogVideoX v1.5开源，支持5/10秒视频、768P 分辨率和16帧生成能力。
🎨 新清影平台上线，结合 CogSound 音效模型，提供超高清4K 视频生成。
📈 数据处理与算法创新，确保生成视频的质量和连贯性。

CogVideoX 视频生成模型智谱技术 I2V

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

Character.AI 推出 AvatarFX 模型：让静态图片中的人物“开口说话”

Character.AI 近日宣布推出全新视频生成模型 AvatarFX，这一突破性技术能够将静态图片转化为具有真实感的可说话视频角色，赋予图像中的人物动态表情、唇部同步以及自然肢体动作。AvatarFX 的核心是其最先进的基于扩散模型的动态生成技术。该技术依托经过精心筛选的数据集进行训练，融合了创新的音频条件化、蒸馏和推理策略，使得用户能够以极高的速度生成高保真、时间一致性强的视频。无论是长序列的叙事，还是多个角色之间的对话，AvatarFX 都能够完美应对，带来令人惊艳的视觉体验

2025年4月23号 9:30

3.5k

Sand AI 开源 MAGI-1 视频生成模型：无限扩展、高保真

2025 年 4 月 21 日，Sand AI 发布开源视频生成模型 MAGI-1，以其创新的自回归扩散架构和卓越性能，迅速成为生成式 AI 领域的焦点。该模型采用 Apache 2.0 许可，代码、权重和推理工具已在 GitHub 和 Hugging Face 开放，为全球开发者提供强大创作工具。MAGI-1 基于扩散变换器架构，引入块因果注意力、并行注意力块、Sandwich 规范化等技术创新，通过分块生成（每块 24 帧）实现高效视频生成。其独特流水线设计支持并行处理，最多可同时生成四个块，大幅提升效率。模型通过快捷蒸馏技术，支持灵活的

2025年4月22号 9:46

8.7k

Moonvalley完成4300万美元B轮融资，发布创新视频生成模型Marey

2025年4月，视频生成技术公司Moonvalley宣布成功完成4300万美元的B轮融资，此轮融资由11位未具名投资者参与，使得该公司总融资额达到1.13亿美元。这笔资金将进一步推动Moonvalley在AI视频生成领域的技术创新和市场扩展。就在披露融资信息的10天前，Moonvalley推出了旗下首款视频生成模型Marey。这款模型由Moonvalley与动画工作室Asteria合作研发，专为精细控制镜头和物体运动设计。Marey的创新之处在于其能够生成最多30秒的高质量视频，并能够精确模拟如国际象棋棋子移动或微风吹拂头发的细节动作

2025年4月18号 11:14

1.9k

谷歌DeepMind计划整合Gemini与Veo，打造智能全能助手

在人工智能领域不断创新的谷歌，近日宣布了一项激动人心的计划。谷歌 DeepMind 的首席执行官 Demis Hassabis 在播客节目 Possible 中透露，公司将把其 Gemini AI 模型与 Veo 视频生成模型进行整合。这一举措旨在提升 Gemini 对物理世界的理解能力，助力开发出一个真正能够在现实生活中为用户提供帮助的通用数字助手。Hassabis 指出，从一开始，Gemini 模型就被设计为一个多模态系统，能够处理多种类型的数据和信息。他表示:“我们的愿景是构建一个能够整合各种媒体形式的助手，这样它才能更好地

2025年4月13号 10:53

2.6k

亚马逊 AI 视频模型 Nova Reel 升级：可生成长达两分钟的视频片段

亚马逊近日对其 AI 视频生成模型 Nova Reel 进行了升级，推出了 Nova Reel1.1版本。这个新版本不仅能够生成长达两分钟的视频片段，还可以制作多镜头视频，使得各个镜头之间的风格保持一致。Nova Reel 于2024年12月首次发布，是亚马逊在生成视频领域的重要尝试。据 AWS 开发倡导者 Elizabeth Fuentes 在一篇博文中透露，用户可以通过提供最长4，000个字符的提示，生成由六秒镜头组成的长视频。新版的 Nova Reel 还引入了一种名为 “Multishot Manual” 的新模式。在这种模式下，用户可以提供图像和文本提

2025年4月8号 9:27

2.0k

Higgsfield AI 发布全新视频模型：电影级相机控制重塑创意边界

近日，Higgsfield AI 发布了其全新的生成式视频模型，引发了广泛关注。这一创新模型以其卓越的专业级相机控制、世界建模能力以及电影化的表现力脱颖而出，为AI视频生成领域注入了新的活力。Higgsfield AI 官方宣布，这一模型名为“DoP I2V-01-preview”，其设计灵感来源于对电影摄影艺术的深度理解，旨在为创作者提供前所未有的精准度和真实感。新模型最引人注目的特点之一是其预设相机模式，这些模式赋予了AI视频前所未有的“灵魂”。从单一图像出发，用户可以轻松实现“子弹时间”运

2025年4月1号 9:58

4.2k

Runway惊艳发布AI 视频生成模型Gen-4 ，角色场景一致性强到离谱

备受瞩目的 AI 研究公司 Runway 近日隆重推出其下一代人工智能模型系列—— Runway Gen-4。本次发布的 Gen-4模型专注于媒体生成和世界一致性，旨在为用户带来前所未有的创作自由和控制力。其中，最引人瞩目的功能便是其能够精确地生成并保持角色、场景和物体在不同镜头中的高度一致性。告别“换脸”烦恼:角色一致性轻松实现以往的 AI 视频生成模型常常面临角色在不同场景中形象不统一的问题，这给叙事创作带来了诸多挑战。Runway Gen-4革命性地解决了这一痛点。用户只需提供单个角色参

2025年4月1号 9:03

8.3k

AI日报：OpenAI推出史上最贵o1-pro API；腾讯混元全新推理模型T1将发布；阶跃星辰Step-Video-TI2V视频模型开源

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、最贵！用户可以通过窗口前端的图标直接调用Gemini助手，享受自定义快捷键和系统托盘图标的支持，尽管目前不支持侧边栏固定模式。

2025年3月20号 15:25

910

运动可控！阶跃星辰 Step-Video-TI2V 图生视频模型开源

上海阶跃星辰智能科技有限公司宣布开源其最新的图生视频模型——Step-Video-TI2V。这一模型是基于30B参数的Step-Video-T2V训练而成，能够生成102帧、5秒、540P分辨率的视频，具有运动幅度可控和镜头运动可控两大核心特点，尤其在动漫效果方面表现出色。

2025年3月20号 14:32

4.0k

谁说视频只能“一镜到底”？字节创新技术LCT，让AI像导演一样拍摄电影大片！

你是不是已经看惯了那些由AI生成的，虽然逼真但总感觉少了点“味道”的短视频?现在，一项名为长上下文调整（Long Context Tuning， LCT）的创新技术横空出世，它让AI视频生成模型拥有了执导多镜头叙事视频的能力，如同电影和电视剧那样，在不同镜头之间自由切换，构建出更连贯、更引人入胜的故事场景。过去，顶尖的AI视频生成模型，比如SoRA，Kling，Gen3，已经能够创造出长达一分钟的逼真单镜头视频。但这与真实世界中，由多个镜头组成的叙事视频（比如电影中的一个场景）的需求之

2025年3月18号 10:13

5.5k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图