En el campo de la inteligencia artificial, el último logro del equipo de tecnología de comercialización de ByteDance, el modelo Infinity, se ha convertido en el nuevo rey del campo de la generación de imágenes a partir de texto autorregresivo, gracias a su rendimiento excepcional y tecnología innovadora. Este nuevo modelo de código abierto no solo supera a Stable Diffusion 3 en la calidad de generación de imágenes, sino que también muestra una ventaja significativa en la velocidad de inferencia.

La innovación central del modelo Infinity radica en el uso de un marco autorregresivo de Bitwise Token. Este marco predice "Bitwise Token" de grano fino compuestos por +1 o -1 de la resolución de nivel inferior, lo que mejora significativamente la capacidad del modelo para capturar señales de alta frecuencia, generando así imágenes con detalles más ricos. Además, el modelo Infinity amplía el vocabulario hasta el infinito, aumentando enormemente el espacio de representación del Image tokenizer y mejorando el límite superior del rendimiento de la generación de imágenes a partir de texto autorregresivo.

image.png

En la comparación de rendimiento, el modelo Infinity destaca en los métodos autorregresivos, superando con creces a métodos como HART, LlamaGen y Emu3, y derrotando al modelo HART en evaluaciones humanas con una tasa de victorias cercana al 90%. Simultáneamente, Infinity también derrotó a modelos de difusión SOTA como PixArt-Sigma, SD-XL y SD3-Meidum con tasas de victorias del 75%, 80% y 65% respectivamente, demostrando su ventaja en modelos del mismo tamaño.

image.png

Otra gran característica del modelo Infinity es su buena capacidad de escalabilidad. Con el aumento del tamaño del modelo y la inversión en recursos de entrenamiento, la pérdida del conjunto de validación disminuye constantemente y la precisión del conjunto de validación aumenta de manera estable. Además, Infinity también propone una técnica de autocorrección de bits, que mejora la capacidad de autocorrección del modelo y alivia el problema del error acumulado durante la inferencia autorregresiva.

image.png

En cuanto a la velocidad de inferencia, Infinity hereda la ventaja de velocidad de VAR. El modelo de 2B genera imágenes de 1024x1024 en solo 0.8 segundos, 3 veces más rápido que SD3-Medium del mismo tamaño y 14 veces más rápido que Flux Dev de 12B. El modelo de 8B es 7 veces más rápido que SD3.5 del mismo tamaño, y el modelo de 20B genera imágenes de 1024x1024 en 3 segundos, casi 4 veces más rápido que Flux Dev de 12B.

Actualmente, el código de entrenamiento e inferencia, la demostración y los pesos del modelo Infinity ya están disponibles en el repositorio de GitHub, y también se proporciona una experiencia en el sitio web para que los usuarios prueben y evalúen el rendimiento del modelo.

Página del proyecto: https://foundationvision.github.io/infinity.project/