L'avènement de modèles tels que Stable Diffusion marque une avancée majeure dans le domaine de la génération d'images. Cependant, leur différence fondamentale avec les modèles linguistiques autorégressifs a entravé le développement de modèles linguistiques-visuels unifiés. Pour résoudre ce problème, les chercheurs ont présenté Meissonic, qui élève la modélisation d'images masquées non autorégressive (MIM) technologie texte-vers-image à un niveau comparable à celui des modèles de diffusion de pointe tels que SDXL.
Au cœur de Meissonic se trouvent une série d'innovations architecturales, des stratégies avancées de codage de position et des conditions d'échantillonnage optimisées. Ces améliorations améliorent considérablement les performances et l'efficacité de la MIM. De plus, Meissonic exploite des données d'entraînement de haute qualité, intègre des micro-conditions basées sur des scores de préférence humaine et utilise des couches de compression de caractéristiques, améliorant ainsi la fidélité et la résolution des images.
Contrairement aux grands modèles de diffusion tels que SDXL et DeepFloyd-XL, Meissonic ne compte qu'un milliard de paramètres. Il peut néanmoins générer des images de haute qualité à une résolution de 1024×1024 et fonctionner sur un GPU grand public avec seulement 8 Go de VRAM, sans aucune optimisation de modèle supplémentaire. De plus, Meissonic peut facilement générer des images avec un arrière-plan uni, ce qui nécessite généralement un réglage fin du modèle ou un ajustement du décalage de bruit dans les modèles de diffusion.
Pour un entraînement efficace, le processus d'entraînement de Meissonic est divisé en quatre phases soigneusement conçues :
Première phase : Comprendre les concepts de base à partir d'un ensemble de données massif. Meissonic utilise l'ensemble de données LAION-2B filtré, entraîné à une résolution de 256×256, pour apprendre les concepts de base.
Deuxième phase : Aligner le texte et l'image à l'aide d'invites longues. La résolution d'entraînement est augmentée à 512×512, et des paires texte-image synthétiques de haute qualité et un ensemble de données interne sont utilisés pour améliorer la capacité du modèle à comprendre les invites descriptives longues.
Troisième phase : Maîtriser la compression des caractéristiques pour une génération à plus haute résolution. Grâce à l'introduction de couches de compression de caractéristiques, Meissonic peut passer de 512×512 à 1024×1024 de manière transparente, et est entraîné à l'aide de paires texte-image de haute qualité et haute résolution sélectionnées.
Quatrième phase : Optimisation de la génération d'images esthétiques haute résolution. Dans cette phase, le modèle est affiné avec un faible taux d'apprentissage, et des scores de préférence humaine sont ajoutés comme micro-conditions pour améliorer les performances du modèle dans la génération d'images de haute qualité.
Grâce à une évaluation sur une série d'indicateurs quantitatifs et qualitatifs, notamment les tests de référence HPS, MPS, GenEval et l'évaluation GPT4o, Meissonic présente des performances et une efficacité supérieures. Comparé à DALL-E2 et SDXL, Meissonic affiche des performances compétitives en termes de performances humaines et d'alignement du texte, tout en démontrant son efficacité.
De plus, Meissonic excelle dans l'édition d'image à image en zéro-shot. Sur l'ensemble de données EMU-Edit, Meissonic a obtenu des résultats de pointe pour sept opérations différentes : changement d'arrière-plan, changement de contenu d'image, changement de style, suppression d'objets, ajout d'objets, modification locale et changement de couleur/texture. Tout cela sans entraînement ni réglage fin sur des données ou des ensembles d'instructions spécifiques à l'édition d'images.
Adresse du projet : https://github.com/viiika/Meissonic
Adresse de l'article : https://arxiv.org/pdf/2410.08261