El 4 de marzo de 2025, Beijing Zhipu Shuzhang Technology Co., Ltd. anunció el lanzamiento de CogView4, su primer modelo de generación de imágenes a partir de texto de código abierto que admite la generación de caracteres chinos. Este modelo obtuvo la puntuación más alta en las pruebas de referencia DPG-Bench, convirtiéndose en el modelo de generación de imágenes a partir de texto de código abierto más avanzado (SOTA), y sigue la licencia Apache2.0, siendo el primer modelo de generación de imágenes en hacerlo.
CogView4 cuenta con una potente capacidad de alineación semántica compleja y de seguimiento de instrucciones, admite la entrada de texto bilingüe chino-inglés de longitud arbitraria y puede generar imágenes de cualquier resolución. No solo puede generar imágenes de alta calidad, sino que también puede integrar caracteres chinos de forma natural en la imagen, satisfaciendo las necesidades creativas de publicidad, videos cortos, etc. Técnicamente, CogView4 utiliza GLM-4encoder con capacidad bilingüe, logrando la capacidad de entrada de indicaciones bilingües mediante el entrenamiento de imágenes y texto bilingües chino-inglés.
Este modelo también admite la entrada de indicaciones de cualquier longitud y puede generar imágenes de cualquier resolución, lo que aumenta considerablemente la libertad creativa y la eficiencia del entrenamiento. CogView4 utiliza la codificación de posición rotacional bidimensional (2D RoPE) para modelar la información de posición de la imagen, y admite la generación de imágenes de diferentes resoluciones mediante la interpolación de la codificación de posición. Además, el modelo utiliza el esquema de Flow-matching para el modelado de generación de difusión, combinado con la planificación de ruido dinámico lineal parametrizada, para adaptarse a las necesidades de relación señal-ruido de imágenes de diferentes resoluciones.
En cuanto al diseño de la arquitectura, CogView4 continúa con la arquitectura Share-param DiT de la generación anterior, y diseña capas LayerNorm adaptativas independientes para las modalidades de texto e imagen, para lograr una adaptación eficiente entre las modalidades. El modelo utiliza una estrategia de entrenamiento multietapa, que incluye entrenamiento de resolución básica, entrenamiento de resolución general, ajuste fino de datos de alta calidad y entrenamiento de alineación de preferencias humanas, para garantizar que las imágenes generadas tengan una alta estética y se ajusten a las preferencias humanas.
CogView4 también supera la limitación tradicional de la longitud fija de los tokens, permitiendo un límite superior de tokens más alto y reduciendo significativamente la redundancia de los tokens de texto durante el entrenamiento. Cuando la longitud promedio de la leyenda de entrenamiento es de 200-300 tokens, en comparación con el método tradicional de 512 tokens fijos, CogView4 reduce aproximadamente un 50% la redundancia de tokens y logra una mejora de eficiencia del 5% al 30% en la etapa de entrenamiento progresivo del modelo.
Además, CogView4 admite la licencia Apache2.0, y posteriormente se añadirá soporte para ControlNet, ComfyUI y otros ecosistemas, y también se lanzará próximamente un paquete completo de herramientas de ajuste fino.
Dirección del repositorio de código abierto:
https://github.com/THUDM/CogView4
Repositorio del modelo:
https://huggingface.co/THUDM/CogView4-6B
https://modelscope.cn/models/ZhipuAI/CogView4-6B