LlamaGen, desarrollado conjuntamente por investigadores de la Universidad de Hong Kong y ByteDance, es un método de generación de imágenes basado en el modelo autorregresivo Llama. Demuestra un potencial en el campo de la generación de imágenes que supera a los modelos de difusión tradicionales.
El lanzamiento de código abierto de LlamaGen ha recibido rápidamente cerca de 900 estrellas en GitHub. Este logro no solo demuestra la competitividad de los modelos autorregresivos en la generación de imágenes, sino que también aporta nueva vitalidad e impulso a la innovación en la comunidad de código abierto.
En el banco de pruebas ImageNet, LlamaGen supera a modelos de difusión como LDM y DiT. Este éxito se debe a la profunda comprensión y optimización de la arquitectura del modelo autorregresivo por parte del equipo de investigación. Mediante el reentrenamiento del Image Tokenizer, lograron resultados superiores a los de Tokenizers anteriores, incluyendo VQGAN, ViT-VQGAN y MaskGI, tanto en ImageNet como en COCO.
La implementación técnica de LlamaGen se basa en varios principios de diseño clave: un compresor/cuantificador de imágenes, un modelo de generación de imágenes escalable y datos de entrenamiento de alta calidad. El equipo de investigación adoptó una arquitectura CNN similar a VQ-GAN, convirtiendo imágenes continuas en tokens discretos y mejorando significativamente la calidad visual y la resolución de las imágenes durante un proceso de entrenamiento de dos fases.
Dirección del proyecto: https://top.aibase.com/tool/llamagen
Dirección de prueba en línea: https://huggingface.co/spaces/FoundationVision/LlamaGen
En la primera fase, el modelo se entrenó en un subconjunto de 50 millones de imágenes de LAION-COCO con una resolución de 256×256. El equipo de investigación seleccionó un conjunto de datos de imágenes de alta calidad filtrando por URL de imagen válidas, puntuaciones estéticas y puntuaciones de marcas de agua. La segunda fase consistió en un ajuste fino en un conjunto de datos interno de 10 millones de imágenes de alta calidad estética, con una resolución mejorada a 512×512, lo que mejoró aún más la calidad visual de las imágenes generadas.
Las ventajas de LlamaGen radican en su excelente Image Tokenizer y la escalabilidad de la arquitectura Llama. Durante el proceso de generación real, LlamaGen muestra una gran competitividad en métricas como FID, IS, Precisión y Recall. En comparación con modelos autorregresivos anteriores, LlamaGen destaca en todos los niveles de parámetros.
Aunque LlamaGen ya ha logrado resultados notables, los investigadores señalan que actualmente se encuentra en una etapa similar a Stable Diffusion v1. Las futuras mejoras incluirán mayor resolución, mayor variedad de relaciones de aspecto, mayor controlabilidad y generación de vídeo.
Actualmente, LlamaGen ya está disponible para pruebas en línea. Los interesados pueden visitar el espacio LlamaGen en Hugging Face para probar personalmente esta revolucionaria tecnología de generación de imágenes. Además, el lanzamiento de código abierto de LlamaGen proporciona una plataforma para que desarrolladores e investigadores de todo el mundo participen y contribuyan.