La aparición de modelos como Stable Diffusion marcó un gran avance en la generación de imágenes, pero su diferencia fundamental con los modelos de lenguaje autorregresivo obstaculizó el desarrollo de un modelo unificado de lenguaje y visión. Para solucionar esto, se presentó Meissonic, que eleva la tecnología de modelado de imágenes enmascaradas no autorregresivo (MIM) de texto a imagen a un nivel comparable a los modelos de difusión de vanguardia como SDXL.
El núcleo de Meissonic reside en una serie de innovaciones arquitectónicas, estrategias avanzadas de codificación posicional y condiciones de muestreo optimizadas, mejoras que aumentan significativamente el rendimiento y la eficiencia de MIM. Además, Meissonic utiliza datos de entrenamiento de alta calidad, integra microcondiciones basadas en puntuaciones de preferencia humana y emplea capas de compresión de características, lo que mejora aún más la fidelidad y la resolución de las imágenes.
A diferencia de los grandes modelos de difusión como SDXL y DeepFloyd-XL, Meissonic solo tiene 1000 millones de parámetros, pero puede generar imágenes de alta calidad con una resolución de 1024×1024 y funcionar en una GPU de consumo con solo 8 GB de VRAM, sin necesidad de optimizaciones adicionales del modelo. Además, Meissonic puede generar fácilmente imágenes con fondos de un solo color, algo que normalmente requiere ajuste fino del modelo o ajustes de desplazamiento de ruido en los modelos de difusión.
Para lograr un entrenamiento eficiente, el proceso de entrenamiento de Meissonic se divide en cuatro etapas cuidadosamente diseñadas:
Primera etapa: Comprender los conceptos básicos a partir de una gran cantidad de datos. Meissonic utiliza el conjunto de datos LAION-2B filtrado, entrenándose a una resolución de 256×256 para aprender conceptos básicos.
Segunda etapa: Alinear texto e imágenes usando prompts largos. La resolución de entrenamiento aumenta a 512×512 y se utilizan pares de texto e imagen sintéticos de alta calidad y un conjunto de datos interno para mejorar la capacidad del modelo para comprender prompts descriptivos largos.
Tercera etapa: Dominar la compresión de características para lograr una generación de mayor resolución. Mediante la introducción de capas de compresión de características, Meissonic puede pasar sin problemas de 512×512 a 1024×1024 y se entrena utilizando pares de texto e imagen de alta resolución cuidadosamente seleccionados.
Cuarta etapa: Optimizar la generación de imágenes estéticas de alta resolución. En esta etapa, el modelo se ajusta finamente con una tasa de aprendizaje más baja y se agregan puntuaciones de preferencia humana como microcondiciones para mejorar el rendimiento del modelo en la generación de imágenes de alta calidad.
Mediante la evaluación de una serie de indicadores cuantitativos y cualitativos, incluyendo las pruebas de referencia HPS, MPS, GenEval y la evaluación GPT4o, Meissonic muestra un rendimiento y una eficiencia superiores. En comparación con DALL-E2 y SDXL, Meissonic logra un rendimiento competitivo tanto en el rendimiento humano como en la alineación de texto, mostrando también su eficiencia.
Además, Meissonic destaca en la edición de imagen a imagen de cero disparos. En el conjunto de datos EMU-Edit, Meissonic obtuvo los mejores resultados en siete operaciones diferentes: cambio de fondo, cambio de contenido de la imagen, cambio de estilo, eliminación de objetos, adición de objetos, modificación local y cambio de color/textura. Todo esto sin necesidad de entrenamiento o ajuste fino en datos o conjuntos de instrucciones específicos para la edición de imágenes.
Dirección del proyecto: https://github.com/viiika/Meissonic
Dirección del artículo: https://arxiv.org/pdf/2410.08261