智谱AI ha anunciado la publicación de código abierto de su modelo de generación de video CogVideoX, con el objetivo de impulsar el rápido desarrollo y la aplicación de la tecnología de generación de video. El modelo CogVideoX se basa en una tecnología de modelos grandes avanzada y puede satisfacer las necesidades de aplicaciones comerciales.
La versión CogVideoX-2B de código abierto actualmente requiere solo 18 GB de memoria de video para la inferencia con precisión FP-16, y 40 GB para el ajuste fino, lo que permite la inferencia con una sola tarjeta gráfica 4090 y el ajuste fino con una sola tarjeta gráfica A6000.
El modelo CogVideoX utiliza la tecnología de autocodificador variacional 3D (3D VAE), que comprime simultáneamente las dimensiones espaciales y temporales del video a través de convoluciones tridimensionales, logrando una mayor tasa de compresión y una mejor calidad de reconstrucción. La estructura del modelo incluye un codificador, un decodificador y un regularizador del espacio latente, utilizando convoluciones causales temporales para asegurar la causalidad de la información. Además, se utiliza la tecnología Transformer experta para procesar los datos de video codificados, combinándolos con la entrada de texto para generar contenido de video de alta calidad.
Para entrenar el modelo CogVideoX,智谱AI desarrolló un método para seleccionar datos de video de alta calidad, eliminando videos con edición excesiva o movimientos inconsistentes, asegurando así la calidad de los datos de entrenamiento del modelo. Al mismo tiempo, se resolvió el problema de la falta de descripciones de texto en los datos de video mediante un pipeline que genera subtítulos de video a partir de subtítulos de imágenes.
En términos de evaluación del rendimiento, CogVideoX mostró un rendimiento excelente en varios indicadores, incluyendo acciones humanas, escenas, grado de dinamismo, etc., así como herramientas de evaluación centradas en las características dinámicas del video. 智谱AI continuará explorando innovaciones en el campo de la generación de video, incluyendo nuevas arquitecturas de modelos, compresión de información de video y fusión de contenido de texto y video.
Repositorio de código:
https://github.com/THUDM/CogVideo
Descarga del modelo:
https://huggingface.co/THUDM/CogVideoX-2b
Informe técnico:
https://github.com/THUDM/CogVideo/blob/main/resources/CogVideoX.pdf