Pesquisadores da NVIDIA, em colaboração com o MIT e a Universidade Tsinghua, desenvolveram uma nova estrutura de geração de imagem a partir de texto chamada Sana, capaz de gerar imagens de alta resolução, até 4096×4096 pixels, de forma eficiente.

A Sana sintetiza imagens de alta resolução e alta qualidade, altamente consistentes com o texto, em velocidades extremamente rápidas, podendo até mesmo ser executada na GPU de um laptop.

image.png

Design principal da Sana:

Autoencoder de compressão profunda: Diferentemente dos autoencoders tradicionais que comprimem imagens em apenas 8 vezes, o autoencoder treinado pela Sana comprime imagens em 32 vezes, reduzindo efetivamente o número de tokens latentes.

DiT linear: A Sana substitui todos os mecanismos de atenção comuns no DiT por mecanismos de atenção linear, o que é mais eficiente na geração de imagens de alta resolução sem sacrificar a qualidade.

Codificador de texto apenas decodificador: Os pesquisadores substituíram o T5 como codificador de texto por um modelo de linguagem menor e mais avançado, o Gemma (um LLM apenas decodificador), e projetaram um aprendizado complexo de instruções e contexto humanos para melhorar a consistência entre imagem e texto.

Treinamento e amostragem eficientes: A Sana apresenta o Flow-DPM-Solver para reduzir as etapas de amostragem e acelera a convergência do modelo por meio de rotulagem e seleção eficientes de títulos.

image.png

Graças a esses projetos, o Sana-0.6B apresenta desempenho comparável a modelos de difusão maiores (como o Flux-12B), mas com um tamanho de modelo 20 vezes menor e uma velocidade mais de 100 vezes superior.

Além disso, o Sana-0.6B pode ser implantado em uma GPU de laptop de 16 GB, gerando imagens de 1024×1024 pixels em menos de 1 segundo, tornando a criação de conteúdo de baixo custo uma realidade.

image.png

A principal vantagem da Sana é sua eficiência. Na geração de imagens 4K, a taxa de transferência do Sana-0.6B é mais de 100 vezes mais rápida que os métodos mais avançados atuais (FLUX), e 40 vezes mais rápida em resolução 1K.

Os pesquisadores também quantificaram o Sana-0.6B e o implantaram em dispositivos de borda. Em dispositivos de consumo equipados com GPU RTX-4090, a geração de imagens de 1024×1024 pixels leva apenas 0,37 segundos, fornecendo um poderoso modelo básico para geração de imagens em tempo real.

No futuro, os pesquisadores planejam construir um processo de geração de vídeo eficiente baseado na Sana. No entanto, esta pesquisa também apresenta algumas limitações, como a incapacidade de garantir completamente a segurança e o controle do conteúdo das imagens geradas, e desafios em situações complexas como renderização de texto, geração de rostos e mãos.

Endereço do projeto: https://nvlabs.github.io/Sana/

Endereço do artigo: https://arxiv.org/pdf/2410.10629