Recientemente, un equipo de investigación ha lanzado conjuntamente un modelo de generación de imágenes de IA de código abierto llamado Meissonic. Sorprendentemente, este modelo, con solo mil millones de parámetros, puede generar imágenes de alta calidad. Este diseño compacto le da a Meissonic el potencial de habilitar aplicaciones locales de texto a imagen en dispositivos móviles.

image.png

Detrás de esta tecnología se encuentra un equipo de investigación que incluye a investigadores de Alibaba, Skywork AI y varias universidades. Han empleado una arquitectura de transformador única y un novedoso método de entrenamiento, permitiendo que Meissonic funcione en una PC de juegos común, e incluso potencialmente en teléfonos móviles en el futuro.

image.png

El método de entrenamiento de Meissonic utiliza una técnica llamada "modelado de imágenes enmascaradas". En pocas palabras, durante el entrenamiento se oculta una parte de la imagen. El modelo aprende a reconstruir las partes faltantes basándose en las áreas visibles y la descripción del texto. Esta forma ayuda al modelo a comprender la relación entre los elementos de la imagen y el texto.

La arquitectura de Meissonic le permite generar imágenes de alta resolución de 1024x1024 píxeles, manejando fácilmente escenas realistas, texto estilizado, memes e incluso pegatinas de dibujos animados.

A diferencia de los modelos autorregresivos tradicionales que generan imágenes paso a paso, Meissonic utiliza una optimización iterativa paralela para predecir simultáneamente toda la información de la imagen. Esta innovación reduce significativamente los pasos de decodificación, aproximadamente en un 99%, lo que aumenta considerablemente la velocidad de generación de imágenes.

En el proceso de construcción del modelo, los investigadores pasaron por cuatro etapas:

Primero, entrenaron el modelo con 200 millones de imágenes de 256x256 píxeles para enseñarle conceptos básicos; luego, utilizaron 10 millones de pares de imagen-texto cuidadosamente seleccionados para mejorar su comprensión del texto; a continuación, añadieron capas de compresión especiales para permitir que el modelo genere imágenes de 1024x1024 píxeles; finalmente, realizaron un ajuste fino, incorporando datos de preferencias humanas para mejorar el rendimiento del modelo.

image.png

Curiosamente, a pesar de su menor cantidad de parámetros, Meissonic supera en varias pruebas de referencia a modelos más grandes, como SDXL y DeepFloyd-XL, obteniendo una alta puntuación de 28.83 en "puntuación de preferencia humana". Además, Meissonic puede reparar y ampliar imágenes sin entrenamiento adicional, permitiendo a los usuarios añadir fácilmente partes de imágenes faltantes o mejorar creativamente las imágenes existentes.

El equipo de investigación cree que este método podría facilitar el desarrollo rápido y de bajo costo de generadores de imágenes de IA personalizados, y también podría impulsar el desarrollo de aplicaciones de texto a imagen en dispositivos móviles. Los interesados pueden encontrar una versión de demostración en Hugging Face y ver el código del modelo en GitHub. Se puede ejecutar fácilmente con una GPU de consumo de 8 GB de VRAM.

demo:https://huggingface.co/spaces/MeissonFlow/meissonic

proyecto:https://github.com/viiika/Meissonic

Puntos clave:

🌟 Meissonic es un modelo de IA de código abierto que genera imágenes de alta calidad con solo mil millones de parámetros, adecuado para PC de juegos comunes y futuros dispositivos móviles.

⚡ Utilizando un método de entrenamiento de optimización iterativa paralela, Meissonic es un 99% más rápido en la generación de imágenes que los modelos tradicionales.

🏆 A pesar de su menor cantidad de parámetros, Meissonic supera a modelos más grandes en varias pruebas y puede reparar y ampliar imágenes sin necesidad de entrenamiento adicional.