Sana est un cadre de génération d'images à partir de texte développé par NVIDIA, capable de générer efficacement des images haute définition, à haute cohérence texte-image, avec une résolution pouvant atteindre 4096×4096, et ce très rapidement, même sur le GPU d'un ordinateur portable. Le modèle Sana est basé sur un transformateur de diffusion linéaire, utilisant un encodeur de texte pré-entraîné et un encodeur de caractéristiques latentes spatialement compressées. L'importance de cette technique réside dans sa capacité à générer rapidement des images de haute qualité, ayant un impact révolutionnaire sur la création artistique, le design et d'autres domaines créatifs. Le modèle Sana est sous licence CC BY-NC-SA 4.0, et le code source est disponible sur GitHub.