NVIDIA, en collaboration avec des chercheurs du MIT et de l'Université Tsinghua, a développé un nouveau framework de génération d'images à partir de texte appelé Sana, capable de générer efficacement des images haute résolution jusqu'à 4096×4096 pixels.
Sana permet de synthétiser des images haute résolution, de haute qualité et parfaitement cohérentes avec le texte, à une vitesse extrêmement rapide, et ce même sur le GPU d'un ordinateur portable.
Conception principale de Sana :
Auto-encodeur à compression profonde : Contrairement aux auto-encodeurs traditionnels qui compressent les images seulement 8 fois, l'auto-encodeur entraîné par Sana compresse les images 32 fois, réduisant ainsi efficacement le nombre de jetons latents.
DiT linéaire : Sana remplace tous les mécanismes d'attention classiques du DiT par des mécanismes d'attention linéaires, ce qui est plus efficace pour la génération d'images haute résolution sans sacrifier la qualité.
Encodeur de texte uniquement décodeur : Les chercheurs ont remplacé T5 par Gemma, un petit modèle linguistique uniquement décodeur plus avancé, comme encodeur de texte, et ont conçu un apprentissage complexe des instructions et du contexte humains pour améliorer la cohérence entre l'image et le texte.
Entraînement et échantillonnage efficaces : Sana propose Flow-DPM-Solver pour réduire les étapes d'échantillonnage et accélérer la convergence du modèle grâce à un étiquetage et une sélection efficaces des titres.
Grâce à ces conceptions, Sana-0.6B offre des performances comparables aux grands modèles de diffusion (tels que Flux-12B), mais avec une taille de modèle 20 fois plus petite et une vitesse plus de 100 fois supérieure.
De plus, Sana-0.6B peut être déployé sur un GPU d'ordinateur portable de 16 Go, générant des images de 1024×1024 pixels en moins d'une seconde. Sana rend ainsi la création de contenu à faible coût possible.
Le principal avantage de Sana réside dans son efficacité. Pour la génération d'images 4K, le débit de Sana-0.6B est plus de 100 fois supérieur à celui des méthodes les plus avancées (FLUX), et 40 fois supérieur pour une résolution de 1K.
Les chercheurs ont également quantifié Sana-0.6B et l'ont déployé sur des appareils périphériques. Sur un appareil grand public équipé d'un GPU RTX-4090, la génération d'images de 1024×1024 pixels ne prend que 0,37 seconde, fournissant un puissant modèle de base pour la génération d'images en temps réel.
À l'avenir, les chercheurs envisagent de construire un processus de génération vidéo efficace basé sur Sana. Cependant, cette recherche présente également certaines limites, telles que l'impossibilité de garantir totalement la sécurité et la contrôlabilité du contenu des images générées, et des défis persistent dans des cas complexes tels que le rendu de texte, la génération de visages et de mains.
Adresse du projet : https://nvlabs.github.io/Sana/
Adresse de l'article : https://arxiv.org/pdf/2410.10629