Recientemente, Zhihu AI ha lanzado al público su última creación: CogView3 y su versión mejorada, CogView-3Plus-3B, inyectando nueva vitalidad al campo de la generación de imágenes a partir de texto.

La aparición de CogView3 es sin duda un hito importante. Como el primer modelo en el campo de la generación de imágenes a partir de texto que implementa la difusión de retransmisión, utiliza un método de difusión en cascada único. Este enfoque innovador genera primero una imagen de baja resolución y luego utiliza una técnica de superresolución basada en retransmisión para completar la salida final. Esto no solo mejora significativamente la calidad de las imágenes generadas, sino que también reduce considerablemente los costos de entrenamiento e inferencia.

image.png

Lo más destacable es el rendimiento de CogView3. Según las evaluaciones humanas, CogView3 supera en calidad de generación al modelo de código abierto de texto a imagen más avanzado actualmente, SDXL, con una tasa de éxito del 77,0 %. Más sorprendente aún, logró esto en aproximadamente la mitad del tiempo de inferencia de SDXL. Si se utiliza la versión simplificada de CogView3, se mantiene un nivel de rendimiento comparable incluso utilizando solo una décima parte del tiempo de inferencia de SDXL. Este avance revolucionario abre nuevas posibilidades para la generación de imágenes de alta eficiencia y alta calidad.

Simultáneamente, Zhihu AI también lanzó CogView-3Plus-3B, un modelo de imagen basado en el framework DiT (Diffusion Transformers). Aunque los resultados de las pruebas específicas aún no se han publicado, la industria espera con gran interés su potencial. CogView-3Plus-3B se basa en CogView3 y se ha optimizado aún más, introduciendo tecnologías avanzadas como la programación de ruido de difusión Zero-SNR y el mecanismo de atención conjunta texto-imagen. Estas mejoras no solo reducen los costos de entrenamiento e inferencia, sino que también mantienen una potente capacidad de generación de imágenes.

Cabe mencionar que CogView-3Plus-3B admite un rango de resoluciones de imagen muy amplio, desde 512x512 hasta 2048x2048, lo que aumenta enormemente la flexibilidad de sus escenarios de aplicación. Tanto para el uso diario como para la creación profesional, se puede encontrar la opción de resolución adecuada.

Para ayudar a los usuarios a aprovechar mejor estos modelos, Zhihu AI también proporciona consejos y herramientas útiles. Recomiendan a los usuarios optimizar las indicaciones mediante modelos de lenguaje grandes (LLM), lo que puede mejorar significativamente la calidad de las imágenes generadas. Además, Zhihu AI proporciona scripts de ejemplo, lo que reduce considerablemente el umbral de uso para los usuarios.

Dirección del proyecto: https://github.com/THUDM/CogView3