Recientemente, un equipo de investigación de la Universidad de Hong Kong y ByteDance publicó una innovadora tecnología llamada LlamaGen, que aplica el paradigma original de predicción del siguiente token de los grandes modelos de lenguaje al campo de la generación de imágenes. Revisando el espacio de diseño de los tokenizadores de imágenes, las propiedades de escalabilidad de los modelos de generación de imágenes y la calidad de sus datos de entrenamiento, desarrollaron con éxito un nuevo modelo de generación de imágenes llamado LlamaGen.

image.png

Acceso al producto:https://top.aibase.com/tool/llamagen

LlamaGen supone una innovación revolucionaria en los modelos tradicionales de generación de imágenes. Demuestra que incluso sin sesgos inductivos de señales visuales, los modelos autoregresivos comunes pueden lograr un rendimiento líder en la generación de imágenes, siempre que se escalen adecuadamente. LlamaGen, autoregresivo, es decir, la salida del Transformer, el siguiente token, se utiliza como entrada para predecir el siguiente token, utiliza la arquitectura LLaMA y no utiliza modelos de difusión. Este descubrimiento abre nuevas posibilidades e inspiraciones en el campo de la generación de imágenes, ofreciendo nuevas ideas y direcciones para futuras investigaciones.

Características de LlamaGen:

Tokenizador de imágenes: Presenta un tokenizador de imágenes con una relación de submuestreo de 16x, una calidad de reconstrucción de 0.94 y una tasa de utilización del libro de códigos del 97%, mostrando un rendimiento excelente en las pruebas de referencia de ImageNet.

image.png

Modelo de generación de imágenes con condición de categoría: Presenta una serie de modelos de generación de imágenes con condición de categoría con un rango de parámetros de 111M a 3.1B, obteniendo un FID de 2.18 en las pruebas de referencia de ImageNet256×256, superando a los populares modelos de difusión.

image.png

image.png

Modelo de generación de imágenes con condición de texto: Presenta un modelo de generación de imágenes con condición de texto con 775M parámetros, entrenado en dos etapas con LAION-COCO, capaz de generar imágenes estéticas de alta calidad, mostrando una excelente calidad visual y alineación de texto.

image.png

Marco de servicio vllm: Se ha verificado la eficacia del marco de servicio LLM para optimizar la velocidad de inferencia de los modelos de generación de imágenes, logrando una aceleración del 326% al 414%.

image.png

En este proyecto, el equipo de investigación publicó dos tokenizadores de imágenes, siete modelos de generación condicional de categorías y dos modelos de generación condicional de texto, además de una demostración en línea y un marco de servicio de alto rendimiento. La publicación de estos modelos y herramientas proporciona a los desarrolladores e investigadores abundantes recursos y herramientas para comprender y aplicar mejor la tecnología LlamaGen.