Los modelos de generación de texto a imagen (T2I) impulsados por inteligencia artificial (IA), como DALLE3 y Adobe Firefly3, demuestran una capacidad de generación excepcional y un potencial ilimitado en aplicaciones reales. Sin embargo, estos modelos suelen tener decenas de miles de millones de parámetros, lo que exige una gran cantidad de memoria y plantea un enorme desafío para su implementación en plataformas con recursos limitados, como dispositivos móviles.
Para abordar estos problemas, los investigadores de ByteDance y POSTECH exploraron técnicas de cuantificación de muy baja precisión para modelos T2I. Entre los numerosos modelos avanzados, FLUX.1-dev se convirtió en el objetivo de la investigación debido a su disponibilidad pública y su excelente rendimiento.
Los investigadores comprimieron los pesos del transformador visual en el modelo FLUX mediante un método de cuantificación de 1,58 bits, utilizando únicamente los tres valores {-1, 0, +1}. Este método de cuantificación no requiere acceso a los datos de imagen y se basa únicamente en la autosupervisión del modelo FLUX.1-dev. A diferencia del método BitNet b1.58, este no entrena un modelo de lenguaje grande desde cero, sino que actúa como una solución de cuantificación posterior al entrenamiento para modelos T2I.
Con este método, el espacio de almacenamiento del modelo se redujo 7,7 veces, ya que los pesos de 1,58 bits se almacenan utilizando enteros con signo de 2 bits, lo que representa una compresión desde una precisión de 16 bits. Para mejorar aún más la eficiencia de la inferencia, los investigadores también desarrollaron un núcleo personalizado optimizado para cálculos de baja precisión. Este núcleo redujo el uso de memoria de inferencia en más de 5,1 veces y mejoró la latencia de la inferencia.
Las evaluaciones en los benchmarks GenEval y T2I Compbench mostraron que FLUX de 1,58 bits mantiene una calidad de generación comparable a la del modelo FLUX de precisión completa, al tiempo que mejora significativamente la eficiencia computacional.
Específicamente, los investigadores cuantificaron el 99,5% de los parámetros del transformador visual del modelo FLUX (un total de 11.900 millones) a 1,58 bits, lo que redujo drásticamente las necesidades de almacenamiento.
Los resultados experimentales muestran que FLUX de 1,58 bits presenta un rendimiento comparable al del modelo FLUX original en los conjuntos de datos T2I CompBench y GenEval. En términos de velocidad de inferencia, FLUX de 1,58 bits muestra mejoras más significativas en GPU de bajo rendimiento (como L20 y A10).
En resumen, la aparición de FLUX de 1,58 bits representa un paso importante para permitir la implementación práctica de modelos T2I de alta calidad en dispositivos con limitaciones de memoria y latencia.
Aunque FLUX de 1,58 bits todavía presenta algunas limitaciones en la mejora de la velocidad y en la representación de detalles de imágenes de alta resolución, su enorme potencial para mejorar la eficiencia del modelo y reducir el consumo de recursos promete nuevas vías de investigación en el futuro.
Resumen de las mejoras principales:
Compresión del modelo: el espacio de almacenamiento del modelo se redujo 7,7 veces.
Optimización de la memoria: el uso de memoria de inferencia se redujo en más de 5,1 veces.
Mantenimiento del rendimiento: FLUX de 1,58 bits mantiene un rendimiento comparable al del modelo FLUX de precisión completa en los benchmarks GenEval y T2I Compbench.
Sin datos de imagen: el proceso de cuantificación no requiere acceso a ningún dato de imagen y se basa únicamente en la autosupervisión del modelo.
Núcleo personalizado: se utilizó un núcleo personalizado optimizado para cálculos de baja precisión, lo que mejoró la eficiencia de la inferencia.
Página del proyecto: https://chenglin-yang.github.io/1.58bit.flux.github.io/
Dirección del artículo: https://arxiv.org/pdf/2412.18653
Dirección del modelo: https://huggingface.co/papers/2412.18653