El equipo de tecnología de Zhipu ha publicado hoy una emocionante noticia: sus modelos de generación de imágenes a partir de texto, CogView3 y su versión mejorada CogView3-Plus-3B, han sido oficialmente de código abierto y lanzados en la aplicación "Zhipu Qingyan". El lanzamiento de estos dos modelos marca una nueva era en la creación artística asistida por IA.

CogView3, un modelo de texto a imagen basado en difusión en cascada, tiene un proceso de generación exquisito. Primero genera una imagen de baja resolución de 512x512 píxeles, luego la mejora a 1024x1024 mediante un proceso de difusión de retransmisión, y finalmente, mediante otra iteración, presenta una imagen de alta definición de 2048x2048. Este método de generación gradual, similar a como un pintor digital perfecciona su obra en el lienzo, ofrece al usuario una experiencia visual excepcional.

image.png

Según la evaluación oficial, el rendimiento de CogView3 es asombroso, superando en un 77% al modelo de código abierto de texto a imagen líder actual, SDXL. Más aún, la velocidad de inferencia de CogView3 es solo una décima parte de la de SDXL, lo que demuestra los logros excepcionales del equipo de Zhipu en la optimización del modelo.

image.png

El lanzamiento de CogView3-Plus lleva esta tecnología a nuevas alturas. Esta versión incorpora el avanzado marco DiT, utiliza la programación de ruido de difusión Zero-SNR e incluye de forma innovadora un mecanismo de atención conjunta texto-imagen. Estas mejoras no solo aumentan el rendimiento general del modelo, sino que también reducen significativamente los costos de entrenamiento e inferencia, logrando un equilibrio perfecto entre eficiencia y eficacia. El espacio latente VAE de 16 dimensiones empleado por CogView3-Plus abre nuevas posibilidades para el futuro desarrollo de la tecnología de generación de imágenes.

image.png

Para los desarrolladores e investigadores que deseen explorar esta tecnología de vanguardia, el equipo de tecnología de Zhipu ha abierto los repositorios de código fuente de CogView3 y CogView3-Plus-3B. Esta iniciativa impulsará sin duda el rápido desarrollo del campo de la generación de imágenes de IA, proporcionando una base tecnológica sólida para más aplicaciones innovadoras.

Con el lanzamiento de la serie de modelos CogView3, las perspectivas de aplicación de la tecnología de texto a imagen son aún más amplias. Desde la creación personal hasta el diseño comercial, desde la educación hasta la industria del entretenimiento, esta tecnología promete revolucionar diversos campos. Es previsible que, en un futuro próximo, la creación asistida por IA se convierta en la norma, permitiendo a más personas realizar fácilmente sus ideas artísticas.

Dirección del repositorio de código abierto:

https://top.aibase.com/tool/cogview3

Repositorio de código abierto de Plus:

https://top.aibase.com/tool/cogview3-plus-3b