Recentemente, a Nvidia lançou um modelo de geração de imagens de código aberto chamado Sana. Este modelo possui apenas 60 milhões de parâmetros, reduzindo significativamente a barreira de entrada para sua execução.
Sana pode gerar imagens com resolução de 4096×4096 e funcionar em uma placa gráfica de 16 GB, gerando imagens de alta qualidade com resolução de 1024×1024 em menos de um segundo. Essa velocidade é excepcionalmente alta em comparação com modelos similares.
A equipe de pesquisa introduziu um autocodificador de compressão profunda (DC-AE). Em comparação com autocodificadores tradicionais, a taxa de compressão do Sana é 32 vezes maior, reduzindo significativamente o número de tokens latentes, o que é crucial para gerar imagens de altíssima resolução. Além disso, o Sana utiliza um transformador de difusão linear (DiT), substituindo a atenção quadrática tradicional pela atenção linear, reduzindo a complexidade para O(N) e melhorando a captura de informações locais por meio de convoluções profundas 3×3. Esse design aumenta o tempo de latência do Sana em 1,7 vezes na geração de imagens 4K.
Para a codificação de texto, o Sana escolheu o Gemma, um modelo de linguagem grande pequeno e dedicado ao decodificador, em vez do modelo T5 tradicional. O Gemma demonstra melhor desempenho na compreensão e execução de instruções complexas, melhorando o alinhamento entre imagem e texto. Além disso, o Sana otimizou as estratégias de treinamento e inferência, melhorando a consistência entre texto e imagem por meio da marcação automática e seleção de descrições com alta pontuação CLIP. O novo algoritmo Flow-DPM-Solver reduz as etapas de inferência para 14-20, melhorando significativamente o desempenho.
Em termos de desempenho geral, o Sana se destaca entre vários modelos de difusão avançados de texto para imagem. Com resolução de 512×512, a taxa de transferência do Sana-0.6 é 5 vezes maior que a do PixArt-Σ, e sua qualidade de geração de imagem também é excelente. Com resolução de 1024×1024, o Sana-0.6B também apresenta vantagens significativas em comparação com modelos com menos de 300 milhões de parâmetros.
O Sana-0.6B não apenas possui um desempenho robusto, mas também gera imagens rapidamente em uma GPU de notebook de 16 GB, auxiliando os criadores de conteúdo a atingirem seus objetivos de criação de forma eficiente. Diz-se que o Sana 0.6B também é competitivo com o Flux-12B em termos de desempenho, tendo apenas 1/20 de seus parâmetros, mas sendo 100 vezes mais rápido.
Curiosamente, o Sana suporta prompts em inglês, chinês e emojis. Os usuários podem inserir poemas chineses para gerar imagens artísticas relacionadas. Além disso, o Sana possui um certo nível de segurança; quando o usuário insere palavras impróprias, o sistema as substitui automaticamente por um ícone de coração ❤️, evitando a geração de conteúdo inadequado.
Por exemplo, com o prompt "um gatinho brincando na grama, estrelas 🌟" no AIbase, a velocidade de geração é rápida e o efeito é excelente.
Outro exemplo: com o prompt "um panda 🐼 fofo comendo bambu 🎋, estilo pintura em tinta chinesa", podemos ver que o modelo reconhece emojis com precisão.
Vale mencionar que o Sana já possui suporte oficial para ComfyUI e vem com uma ferramenta de treinamento Lora. Isso torna o uso mais conveniente e aumenta significativamente a praticidade. Os interessados podem experimentar por si mesmos.
Link do projeto: https://nv-sana.mit.edu/
Destaques:
🌟 **Geração eficiente**: O Sana gera imagens de alta qualidade com resolução de até 4096×4096 rapidamente, adequado para uso em GPUs de notebooks comuns.
⚙️ **Design inovador**: O autocodificador de compressão profunda e o transformador de difusão linear melhoram significativamente a velocidade e a qualidade de geração.
🚀 **Desempenho excepcional**: O Sana apresenta desempenho excelente em vários testes, com taxa de transferência significativamente maior que outros modelos avançados, suportando a criação rápida de conteúdo.