Desenvolvido em conjunto por pesquisadores da Universidade de Hong Kong e da ByteDance, o LlamaGen é um método de geração de imagens baseado no modelo autoregressivo Llama, demonstrando potencial para superar modelos de difusão tradicionais na área de geração de imagens.

O lançamento de código aberto do LlamaGen rapidamente conquistou quase 900 estrelas no GitHub. Este feito não apenas comprova a competitividade dos modelos autoregressivos na geração de imagens, mas também traz nova vitalidade e impulso à inovação para a comunidade de código aberto.

No benchmark de teste ImageNet, o LlamaGen superou modelos de difusão como LDM e DiT. Este sucesso se deve à compreensão e otimização aprofundadas da arquitetura do modelo autoregressivo pela equipe de pesquisa. Eles treinaram novamente o Image Tokenizer, obtendo resultados superiores a tokenizadores anteriores, incluindo VQGAN, ViT-VQGAN e MaskGI, tanto no ImageNet quanto no COCO.

image.png

A implementação técnica do LlamaGen é baseada em alguns princípios de design chave: compactador/quantificador de imagens, modelo de geração de imagens escalável e dados de treinamento de alta qualidade. A equipe de pesquisa adotou uma arquitetura CNN semelhante à VQ-GAN, convertendo imagens contínuas em tokens discretos e, em um processo de treinamento de duas etapas, melhorando significativamente a qualidade visual e a resolução das imagens.

Endereço do projeto: https://top.aibase.com/tool/llamagen

Endereço para experiência online: https://huggingface.co/spaces/FoundationVision/LlamaGen

Na primeira etapa, o modelo foi treinado em um subconjunto de 50 milhões de imagens do LAION-COCO, com resolução de 256×256. A equipe de pesquisa selecionou um conjunto de dados de imagens de alta qualidade, filtrando URLs de imagens válidas, pontuação estética e pontuação de marca d'água. A segunda etapa envolveu o ajuste fino em um conjunto de dados interno de 10 milhões de imagens de alta qualidade estética, com resolução aumentada para 512×512, melhorando ainda mais a qualidade visual das imagens geradas.

As vantagens do LlamaGen residem em seu excelente Image Tokenizer e na escalabilidade da arquitetura Llama. Na geração real, o LlamaGen demonstrou forte competitividade em métricas como FID, IS, Precision e Recall. Em comparação com modelos autoregressivos anteriores, o LlamaGen se destacou em todos os níveis de parâmetros.

Embora o LlamaGen já tenha alcançado resultados notáveis, os pesquisadores apontam que o modelo atual está apenas na fase do Stable Diffusion v1. As direções futuras de melhoria incluem resolução maior, mais relações de aspecto, maior controlabilidade e geração de vídeo.

Atualmente, o LlamaGen já suporta experiência online. Interessados podem acessar diretamente o espaço LlamaGen no Hugging Face para experimentar pessoalmente essa tecnologia revolucionária de geração de imagens. Além disso, o lançamento de código aberto do LlamaGen fornece uma plataforma para desenvolvedores e pesquisadores globais participarem e contribuírem.