CogView4, el último modelo de generación de imágenes a partir de texto de código abierto de ZhiPu AI, ha hecho su aparición oficial. CogView4 no solo cuenta con 600 millones de parámetros, sino que también admite completamente la entrada en chino y la generación de imágenes a partir de texto en chino, siendo considerado el "primer modelo de código abierto capaz de generar caracteres chinos en imágenes".

QQ_1741067026688.png

CogView4 destaca por su capacidad de aceptar indicaciones en chino e inglés, mostrando una especial habilidad para comprender y seguir instrucciones complejas en chino, convirtiéndose en una herramienta invaluable para creadores de contenido en chino. Como el primer modelo de código abierto capaz de generar caracteres chinos en imágenes, llena un vacío importante en el campo del código abierto. Además, el modelo admite la generación de imágenes con cualquier ancho y alto, y puede procesar indicaciones de cualquier longitud, demostrando una gran flexibilidad.

La capacidad bilingüe de CogView4 se debe a una mejora completa de su arquitectura técnica. Su codificador de texto se ha actualizado a GLM-4, que admite la entrada en chino e inglés, superando la limitación de los modelos de código abierto anteriores que solo admitían inglés. Según se informa, el modelo se entrenó con pares de imágenes y texto en chino e inglés para garantizar la calidad de la generación en el contexto chino.

En el procesamiento de texto, CogView4 abandona el diseño tradicional de longitud fija y adopta un esquema de longitud de texto dinámica. Cuando la longitud media del texto descriptivo es de 200 a 300 tokens, en comparación con el esquema tradicional de 512 tokens fijos, la redundancia se reduce aproximadamente en un 50%, y la eficiencia del entrenamiento aumenta entre un 5% y un 30%. Esta innovación no solo optimiza los recursos de cálculo, sino que también permite que el modelo procese indicaciones de diferentes longitudes de manera más eficiente.

CogView4 admite la generación de imágenes con cualquier resolución, gracias a varios avances tecnológicos. El modelo utiliza entrenamiento de resolución mixta, combinado con codificación de posición rotacional bidimensional y representación de posición interpolada, para adaptarse a diferentes necesidades de tamaño. Además, basado en el modelo de difusión Flow-matching y la planificación de ruido dinámico lineal parametrizada, mejora aún más la calidad y la diversidad de las imágenes generadas.

QQ_1741067051506.png

El proceso de entrenamiento de CogView4 se divide en varias etapas: desde el entrenamiento de resolución básica, hasta la adaptación de resolución general, el ajuste fino de datos de alta calidad y, finalmente, la optimización de la salida mediante el alineamiento de preferencias humanas. Este proceso conserva la arquitectura Share-param DiT, al tiempo que introduce capas de normalización adaptativa independientes para diferentes modalidades, garantizando la estabilidad y la coherencia del modelo en diversas tareas.

Proyecto: https://github.com/THUDM/CogView4