Sana est un framework texte-vers-image développé par NVIDIA, capable de générer efficacement des images jusqu'à une résolution de 4096×4096. Sana permet de synthétiser des images haute résolution et de haute qualité à une vitesse extrêmement rapide, avec une forte capacité d'alignement texte-image. Il peut être déployé sur le GPU d'un ordinateur portable. Ce modèle est basé sur un transformateur de diffusion linéaire, utilisant un encodeur de texte pré-entraîné fixe et un encodeur de caractéristiques latentes à compression spatiale. Il prend en charge les invites en anglais, chinois et les emojis combinés. Les principaux avantages de Sana incluent son efficacité, sa capacité à générer des images haute résolution et sa prise en charge multilingue.