Beijing Zhihu Hua Zhang Technology Co., Ltd. ha anunciado el lanzamiento de la última versión de su serie de modelos CogVideoX: CogVideoX v1.5, ahora de código abierto. Desde su lanzamiento a principios de agosto, esta serie de modelos se ha convertido en un líder en la generación de video gracias a su tecnología de vanguardia y características atractivas para los desarrolladores. La nueva versión, CogVideoX v1.5, presenta mejoras significativas, incluyendo una capacidad mejorada de generación de video: ahora admite la generación de videos de 5/10 segundos, 768P y 16 fps. Además, el modelo I2V admite proporciones de cualquier tamaño, lo que mejora considerablemente la calidad de la generación de video a partir de imágenes y la comprensión de la semántica compleja.

微信截图_20241108145545.png

Este lanzamiento de código abierto incluye dos modelos: CogVideoX v1.5-5B y CogVideoX v1.5-5B-I2V. La nueva versión también estará disponible en la plataforma Qingying y se integrará con el nuevo modelo de efectos de sonido CogSound, ofreciendo servicios mejorados como mayor calidad, soporte para resolución ultra alta, adaptación de proporciones variables a diferentes escenarios de reproducción, salida multicanal y videos con efectos de sonido generados por IA.

En términos técnicos, CogVideoX v1.5 utiliza un marco de filtrado automatizado para eliminar datos de video que carecen de conectividad dinámica. Emplea el modelo de comprensión de video de extremo a extremo CogVLM2-caption para generar descripciones precisas del contenido del video, mejorando la comprensión del texto y el cumplimiento de las instrucciones. Además, la nueva versión utiliza un autocodificador variacional tridimensional eficiente (3D VAE) para resolver problemas de coherencia de contenido, y ha desarrollado una arquitectura Transformer que fusiona las tres dimensiones de texto, tiempo y espacio. Se ha eliminado el módulo de atención cruzada tradicional, y se ha optimizado el uso de la información de los pasos de tiempo en el modelo de difusión mediante la técnica de normalización adaptativa por capas de expertos.

En cuanto al entrenamiento, CogVideoX v1.5 construye un marco de entrenamiento de modelos de difusión eficiente. Mediante diversas técnicas de computación paralela y optimización del tiempo, se ha logrado un entrenamiento rápido de secuencias de video largas. La empresa afirma haber verificado la validez de la ley de escalamiento en el campo de la generación de video y planea aumentar el volumen de datos y el tamaño del modelo en el futuro, explorando arquitecturas de modelos innovadoras para comprimir la información de video de manera más eficiente y lograr una mejor integración entre el texto y el contenido del video.

Código: https://github.com/thudm/cogvideo

Modelo: https://huggingface.co/THUDM/CogVideoX1.5-5B-SAT