Sana é uma estrutura de geração de imagem a partir de texto desenvolvida pela NVIDIA, capaz de gerar imagens de alta resolução, até 4096×4096 pixels, de forma eficiente. Com sua velocidade impressionante e capacidade de alinhamento texto-imagem, Sana pode ser implantada em GPUs de laptops, representando um avanço significativo na tecnologia de geração de imagens. O modelo baseia-se em um transformador de difusão linear, utilizando um codificador de texto pré-treinado e um codificador de características latentes compactadas espacialmente, permitindo a geração e modificação de imagens a partir de prompts de texto. O código-fonte do Sana está disponível no GitHub, oferecendo amplas perspectivas de pesquisa e aplicação, especialmente em criação artística, ferramentas educacionais e pesquisa de modelos.