Hoy, el equipo técnico de Zhipu ha lanzado su último modelo de generación de vídeo, CogVideoX v1.5, y lo ha hecho de código abierto. Esta versión representa otro avance significativo en la serie CogVideoX de Zhipu, lanzada desde agosto.

image.png

Según se ha informado, esta actualización mejora considerablemente la capacidad de generación de vídeo, incluyendo soporte para vídeos de 5 y 10 segundos, resolución de 768P y capacidad de generación de 16 fotogramas. Simultáneamente, el modelo I2V (imagen a vídeo) admite proporciones de cualquier tamaño, lo que refuerza aún más la comprensión de la semántica compleja.

CogVideoX v1.5 incluye dos modelos principales: CogVideoX v1.5-5B y CogVideoX v1.5-5B-I2V, con el objetivo de proporcionar a los desarrolladores herramientas de generación de vídeo más potentes.

Más destacable aún es que CogVideoX v1.5 se lanzará simultáneamente en la plataforma Qingying, y se combinará con el nuevo modelo de efectos de sonido CogSound, para convertirse en "Nueva Qingying".Nueva Qingying ofrecerá múltiples servicios destacados, incluyendo una mejora significativa en la calidad del vídeo, la estética y la coherencia del movimiento, con soporte para la generación de vídeos de 10 segundos, 4K y 60 fotogramas de alta definición.

image.png

Descripción oficial:

  • Mejora de la calidad: Se ha mejorado significativamente la calidad de la generación de vídeo a partir de imágenes, la estética, la coherencia del movimiento y la comprensión de instrucciones complejas.

  • Resolución Ultra Alta Definición: Admite la generación de vídeos de 10 segundos, 4K y 60 fps.

  • Proporciones variables: Admite cualquier proporción, adaptándose a diferentes escenarios de reproducción.

  • Salida multicanal: Se pueden generar cuatro vídeos simultáneamente a partir de una misma instrucción o imagen.

  • Vídeos con efectos de sonido de IA: Nueva Qingying puede generar efectos de sonido que coincidan con la imagen.

En cuanto al procesamiento de datos, el equipo de CogVideoX se ha centrado en mejorar la calidad de los datos, desarrollando un marco de selección automatizado para filtrar datos de vídeo no deseados, y lanzando el modelo de comprensión de vídeo de extremo a extremo CogVLM2-caption para generar descripciones de contenido precisas. Este modelo puede procesar instrucciones complejas de forma eficaz, garantizando que los vídeos generados se ajusten a las necesidades del usuario.

Para mejorar la coherencia del contenido, CogVideoX utiliza la eficiente tecnología de autocodificador variacional tridimensional (3D VAE), reduciendo significativamente los costes y la dificultad del entrenamiento. Además, el equipo ha desarrollado una arquitectura Transformer que fusiona las tres dimensiones de texto, tiempo y espacio. Al eliminar los módulos tradicionales de atención cruzada, se mejora la interacción entre texto y vídeo, lo que aumenta la calidad de la generación de vídeo.

En el futuro, el equipo técnico de Zhipu continuará expandiendo la cantidad de datos y el tamaño del modelo, explorando arquitecturas de modelos más eficientes para lograr una experiencia de generación de vídeo de mayor calidad. El código abierto de CogVideoX v1.5 no solo proporciona a los desarrolladores herramientas potentes, sino que también aporta nueva vitalidad al campo de la creación de vídeo.

Código: https://github.com/thudm/cogvideo

Modelo: https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT

Puntos clave:

🌟 La nueva versión CogVideoX v1.5 de código abierto admite vídeos de 5/10 segundos, resolución de 768P y capacidad de generación de 16 fotogramas.

🎨 Se lanza la plataforma Nueva Qingying, combinada con el modelo de efectos de sonido CogSound, para ofrecer la generación de vídeos 4K de ultra alta definición.

📈 Procesamiento de datos e innovación en algoritmos para garantizar la calidad y la coherencia de los vídeos generados.