Investigadores de NVIDIA, en colaboración con el MIT y la Universidad Tsinghua, han desarrollado Sana, un nuevo marco de generación de imágenes a partir de texto capaz de generar imágenes de alta resolución de hasta 4096×4096 píxeles de forma eficiente.

Sana puede sintetizar imágenes de alta resolución y alta calidad con una gran coherencia de texto a una velocidad extremadamente rápida, incluso en la GPU de un portátil.

image.png

Diseño central de Sana:

Autocodificador de compresión profunda: A diferencia de los autocodificadores tradicionales que solo comprimen imágenes 8 veces, el autocodificador entrenado por Sana puede comprimir imágenes 32 veces, reduciendo eficazmente la cantidad de tokens latentes.

DiT lineal: Sana reemplaza todos los mecanismos de atención comunes en DiT con mecanismos de atención lineal, lo que resulta más eficiente en la generación de imágenes de alta resolución sin sacrificar la calidad.

Codificador de texto solo decodificador: Los investigadores reemplazaron T5 como codificador de texto con el modelo de lenguaje más pequeño y avanzado Gemma (solo decodificador), y diseñaron un complejo aprendizaje de instrucciones y contexto humanos para mejorar la coherencia entre la imagen y el texto.

Entrenamiento y muestreo eficientes: Sana propone Flow-DPM-Solver para reducir los pasos de muestreo y acelerar la convergencia del modelo mediante un etiquetado y selección eficientes de títulos.

image.png

Gracias a estos diseños, Sana-0.6B ofrece un rendimiento comparable a los grandes modelos de difusión (como Flux-12B), pero con un tamaño 20 veces menor y una velocidad más de 100 veces superior.

Además, Sana-0.6B se puede implementar en una GPU de portátil de 16 GB, generando imágenes de 1024×1024 píxeles en menos de un segundo, lo que permite la creación de contenido a bajo costo.

image.png

La principal ventaja de Sana es su eficiencia. En la generación de imágenes 4K, el rendimiento de Sana-0.6B es más de 100 veces más rápido que los métodos más avanzados (FLUX), y 40 veces más rápido en resolución 1K.

Los investigadores también cuantificaron Sana-0.6B y lo implementaron en dispositivos periféricos. En dispositivos de consumo equipados con una GPU RTX-4090, la generación de imágenes de 1024×1024 píxeles tarda solo 0,37 segundos, proporcionando un potente modelo base para la generación de imágenes en tiempo real.

En el futuro, los investigadores planean construir un flujo de generación de vídeo eficiente basado en Sana. Sin embargo, esta investigación también presenta algunas limitaciones, como la imposibilidad de garantizar completamente la seguridad y controlabilidad del contenido de las imágenes generadas, y los desafíos en situaciones complejas como la representación de texto, la generación de rostros y manos.

Dirección del proyecto: https://nvlabs.github.io/Sana/

Dirección del artículo: https://arxiv.org/pdf/2410.10629