智谱AI开源新模型，老显卡也能开启视频生成新时代

近日，智谱AI公司开源了全新的视频生成模型CogVideoX-5B，它不仅在视频生成的质量和视觉效果上超出了前代产品CogVideoX-2B，而且它的推理性能得到了大幅度的提升，使得早期的GTX1080Ti显卡能够运行上一代模型，而桌面端的"甜品级"显卡，如RTX3060，更是可以轻松驾驭这款新模型。

CogVideoX-5B 与 CogVideoX-2B 详细参数对比:

这个大规模的DiT（扩散变换器）模型，被设计用于执行文本到视频的生成任务。其背后的技术包括3D因果变分自编码器(3D causal VAE)，该技术通过将视频数据压缩到潜在空间中，并在时间维度上进行解码，以达到高效的视频重建。

此外，专家变换器（Expert Transformer）的运用，将文本嵌入和视频嵌入相结合，采用3D-RoPE作为位置编码，通过专家自适应层归一化处理两个模态的数据，并使用3D全注意力机制进行时空联合建模。

代码:https://top.aibase.com/tool/cogvideox

模型下载:https://huggingface.co/THUDM/CogVideoX-5b

论文链接:https://arxiv.org/pdf/2408.06072

AI新闻资讯

智谱AI开源新模型，老显卡也能开启视频生成新时代

AIbase基地