Récemment, une équipe de recherche a lancé conjointement un modèle de génération d'images IA open source nommé Meissonic. La surprise ? Ce modèle, ne comportant qu'un milliard de paramètres, est capable de générer des images de haute qualité. Cette conception compacte donne à Meissonic le potentiel de permettre des applications de texte à image locales sur les appareils mobiles.

image.png

Derrière cette technologie se trouve une équipe de recherche comprenant des chercheurs d'Alibaba, de Skywork AI et de plusieurs universités. Ils ont utilisé une architecture de transformateur unique et une méthode d'entraînement novatrice, permettant à Meissonic de fonctionner sur un PC de jeu ordinaire, et potentiellement même sur un téléphone portable à l'avenir.

image.png

La méthode d'entraînement de Meissonic utilise une technique appelée « modélisation d'images masquées ». En termes simples, cela signifie qu'une partie de l'image est cachée pendant l'entraînement. Le modèle apprend à reconstruire les parties manquantes en fonction des zones visibles et de la description textuelle. Cette méthode aide le modèle à comprendre la relation entre les éléments de l'image et le texte.

L'architecture de Meissonic lui permet de générer des images haute résolution de 1024x1024 pixels, qu'il s'agisse de scènes réalistes, de textes stylisés, d'émojis, ou même d'autocollants de dessins animés.

Contrairement aux modèles autorégressifs traditionnels qui génèrent les images étape par étape, Meissonic utilise une optimisation itérative parallèle pour prédire simultanément toutes les informations de l'image. Cette innovation réduit considérablement les étapes de décodage, d'environ 99%, améliorant ainsi considérablement la vitesse de génération d'images.

La création du modèle s'est déroulée en quatre étapes :

Premièrement, ils ont utilisé 200 millions d'images de 256x256 pixels pour enseigner les concepts de base au modèle ; ensuite, ils ont utilisé 10 millions de paires image-texte rigoureusement sélectionnées pour améliorer sa compréhension du texte ; puis, en ajoutant des couches de compression spéciales, le modèle a pu générer des images de 1024x1024 pixels ; enfin, ils ont procédé à un ajustement fin, en utilisant des données reflétant les préférences humaines pour améliorer les performances du modèle.

image.png

Il est intéressant de noter que, malgré son faible nombre de paramètres, Meissonic surpasse de nombreux modèles plus importants lors de plusieurs tests de référence, tels que SDXL et DeepFloyd-XL, obtenant un score de préférence humaine élevé de 28,83. De plus, Meissonic est capable de réparer et d'étendre les images sans entraînement supplémentaire, permettant aux utilisateurs d'ajouter facilement des parties d'images manquantes ou d'améliorer de manière créative les images existantes.

L'équipe de recherche estime que cette méthode pourrait favoriser le développement rapide et peu coûteux de générateurs d'images IA personnalisés, et pourrait également stimuler le développement d'applications de texte à image sur les appareils mobiles. Les personnes intéressées peuvent trouver une version de démonstration sur Hugging Face et consulter le code du modèle sur GitHub. Il peut être facilement exécuté sur un GPU grand public avec 8 Go de VRAM.

démo : https://huggingface.co/spaces/MeissonFlow/meissonic

projet : https://github.com/viiika/Meissonic

Points clés :

🌟 Meissonic est un modèle IA open source qui génère des images de haute qualité avec seulement un milliard de paramètres, adapté aux PC de jeu ordinaires et aux futurs appareils mobiles.

⚡ Grâce à une méthode d'entraînement par optimisation itérative parallèle, Meissonic est 99 % plus rapide que les modèles traditionnels pour la génération d'images.

🏆 Malgré son faible nombre de paramètres, Meissonic surpasse les modèles plus importants lors de nombreux tests et permet la réparation et l'extension d'images sans entraînement supplémentaire.