Nvidia a récemment publié en open source un modèle de génération d'images nommé Sana. Ce modèle ne compte que 60 millions de paramètres, ce qui réduit considérablement les exigences de fonctionnement.

image.png

Sana peut générer des images d'une résolution de 4096×4096 et fonctionner sur une carte graphique de 16 Go. Il génère des images de haute qualité de 1024×1024 en moins d'une seconde, une vitesse remarquable pour un modèle de ce type.

L'équipe de recherche a introduit un auto-encodeur à compression profonde (DC-AE). Comparé aux auto-encodeurs traditionnels, Sana offre un taux de compression 32 fois supérieur, réduisant considérablement le nombre de jetons latents, ce qui est crucial pour la génération d'images à très haute résolution. De plus, Sana utilise un transformateur de diffusion linéaire (DiT), remplaçant l'attention quadratique traditionnelle par une attention linéaire, ce qui réduit la complexité à O(N) et améliore la capture d'informations locales grâce à une convolution profonde 3×3. Cette conception a entraîné une augmentation de 1,7 fois du délai lors de la génération d'images 4K.

Pour l'encodage de texte, Sana utilise le petit modèle linguistique Gemma dédié au décodage, remplaçant le modèle T5 traditionnel. Gemma excelle dans la compréhension et l'exécution d'instructions complexes, améliorant l'alignement entre l'image et le texte. De plus, Sana a optimisé les stratégies d'entraînement et d'inférence, améliorant la cohérence entre le texte et l'image grâce au marquage automatique et à la sélection de descriptions avec un score CLIP élevé. Le nouvel algorithme Flow-DPM-Solver réduit le nombre d'étapes d'inférence à 14-20, améliorant considérablement les performances.

En termes de performances globales, Sana excelle parmi les modèles de diffusion texte-image les plus avancés. À une résolution de 512×512, le débit de Sana-0.6 est 5 fois supérieur à celui de PixArt-Σ, avec une qualité d'image exceptionnelle. À une résolution de 1024×1024, Sana-0.6B présente un avantage significatif parmi les modèles de moins de 300 millions de paramètres.

Sana-0.6B est non seulement performant, mais il génère également rapidement des images sur un GPU de 16 Go sur un ordinateur portable, aidant les créateurs de contenu à atteindre leurs objectifs de création efficacement. Il est dit que Sana-0.6B est compétitif avec Flux-12B en termes de performances, avec un nombre de paramètres 20 fois inférieur et une vitesse 100 fois supérieure.

Il est intéressant de noter que Sana prend en charge les invites en anglais, en chinois et en emoji. Les utilisateurs peuvent saisir des poèmes chinois pour générer des images artistiques correspondantes. De plus, Sana possède une certaine sécurité : lorsqu'un utilisateur saisit des mots inappropriés, le système les remplace automatiquement par un symbole de cœur ❤️, évitant ainsi la génération de contenu inapproprié.

Par exemple, avec l'invite « un chaton jouant dans l'herbe, étoiles 🌟 » sur AIbase, la génération est rapide et le résultat est excellent.

image.png

Par exemple, avec l'invite « un adorable panda 🐼 mangeant du bambou 🎋, style peinture à l'encre de Chine », on voit que le modèle reconnaît précisément les emoji.

image.png

Il est à noter que Sana est officiellement compatible avec ComfyUI et est équipé d'un outil d'entraînement Lora. Cela rend l'utilisation plus facile et améliore considérablement l'utilité. Les personnes intéressées peuvent l'essayer elles-mêmes.

Lien du projet : https://nv-sana.mit.edu/

Points clés :

🌟 **Génération efficace :** Sana génère rapidement des images de haute qualité jusqu'à 4096×4096, adapté à une utilisation sur les GPU d'ordinateurs portables classiques.

⚙️ **Conception innovante :** L'auto-encodeur à compression profonde et le transformateur de diffusion linéaire améliorent considérablement la vitesse et la qualité de génération.

🚀 **Performances exceptionnelles :** Sana excelle dans de nombreux tests, avec un débit nettement supérieur à celui d'autres modèles avancés, permettant une création de contenu rapide.