近日,智谱AI公司开源了全新的视频生成模型CogVideoX-5B,它不仅在视频生成的质量和视觉效果上超出了前代产品CogVideoX-2B,而且它的推理性能得到了大幅度的提升,使得早期的GTX1080Ti显卡能够运行上一代模型,而桌面端的"甜品级"显卡,如RTX3060,更是可以轻松驾驭这款新模型。

CogVideoX-5B 与 CogVideoX-2B 详细参数对比:

image.png

这个大规模的DiT(扩散变换器)模型,被设计用于执行文本到视频的生成任务。其背后的技术包括3D因果变分自编码器(3D causal VAE),该技术通过将视频数据压缩到潜在空间中,并在时间维度上进行解码,以达到高效的视频重建。

此外,专家变换器(Expert Transformer)的运用,将文本嵌入和视频嵌入相结合,采用3D-RoPE作为位置编码,通过专家自适应层归一化处理两个模态的数据,并使用3D全注意力机制进行时空联合建模。

代码:https://top.aibase.com/tool/cogvideox

模型下载:https://huggingface.co/THUDM/CogVideoX-5b

论文链接:https://arxiv.org/pdf/2408.06072