¡Mayor calidad, mejores efectos visuales! Modelo de generación de video CogVideoX-5B de código abierto de Zhipu

La comunidad de ModelScope de Modad ha anunciado recientemente el lanzamiento de código abierto de CogVideoX-5B, una versión de mayor tamaño del modelo de generación de vídeo de código abierto nacional CogVideoX.

En comparación con el CogVideoX-2B anterior, el nuevo modelo muestra una mejora significativa en la calidad y los efectos visuales de la generación de vídeo.

微信截图_20240828081448.png

CogVideoX-5B es un modelo basado en el transformador de difusión a gran escala (DiT), diseñado específicamente para tareas de generación de vídeo a partir de texto. El modelo emplea un autocodificador variacional causal 3D (3D causal VAE) y la tecnología Transformer experta. Combina incrustaciones de texto y vídeo, utiliza 3D-RoPE como codificación posicional y emplea un mecanismo de atención completa 3D para el modelado conjunto espacio-temporal.

Además, el modelo utiliza una técnica de entrenamiento progresivo, capaz de generar vídeos de alta calidad, con características de movimiento significativas, coherentes y de larga duración.

Enlace del modelo:

https://modelscope.cn/models/ZhipuAI/CogVideoX-5b

Noticias de IA

¡Mayor calidad, mejores efectos visuales! Modelo de generación de video CogVideoX-5B de código abierto de Zhipu

AIbase基地