La comunidad de ModelScope de Modad ha anunciado recientemente el lanzamiento de código abierto de CogVideoX-5B, una versión de mayor tamaño del modelo de generación de vídeo de código abierto nacional CogVideoX.
En comparación con el CogVideoX-2B anterior, el nuevo modelo muestra una mejora significativa en la calidad y los efectos visuales de la generación de vídeo.
CogVideoX-5B es un modelo basado en el transformador de difusión a gran escala (DiT), diseñado específicamente para tareas de generación de vídeo a partir de texto. El modelo emplea un autocodificador variacional causal 3D (3D causal VAE) y la tecnología Transformer experta. Combina incrustaciones de texto y vídeo, utiliza 3D-RoPE como codificación posicional y emplea un mecanismo de atención completa 3D para el modelado conjunto espacio-temporal.
Además, el modelo utiliza una técnica de entrenamiento progresivo, capaz de generar vídeos de alta calidad, con características de movimiento significativas, coherentes y de larga duración.
Enlace del modelo:
https://modelscope.cn/models/ZhipuAI/CogVideoX-5b