由港大和字节的研究人员共同开发的LlamaGen是一个基于自回归模型Llama的图像生成方法,它在图像生成领域展现出了超越传统扩散模型的潜力。

LlamaGen的开源发布,迅速在GitHub上获得了近900颗星标的认可。这一成果不仅证明了自回归模型在图像生成上的竞争力,还为开源社区带来了新的活力和创新动力。

在ImageNet测试基准上,LlamaGen的表现超越了LDM、DiT等扩散模型,这一成果得益于研究团队对自回归模型架构的深入理解和优化。他们通过重新训练Image Tokenizer,在ImageNet和COCO上取得了优于以往Tokenizers的成绩,包括VQGAN,ViT-VQGAN和MaskGI等。

image.png

LlamaGen的技术实现基于几个关键设计原则:图像压缩/量化器、可扩展的图像生成模型,以及高质量的训练数据。研究团队采用了与VQ-GAN相似的CNN架构,将连续图像转化为离散Token,并在两个阶段的训练过程中,显著提升了图像的视觉质量和分辨率。

项目地址:https://top.aibase.com/tool/llamagen

在线体验地址:https://huggingface.co/spaces/FoundationVision/LlamaGen

在第一阶段,模型在LAION-COCO的50M子集上进行训练,图像分辨率为256×256。研究团队通过筛选有效图像URL、美学分数、水印分数等,精选出高质量的图像数据集。第二阶段则在1千万规模的内部高美学质量图像上进行微调,图像分辨率提升至512×512,进一步提升了生成图像的视觉质量。

LlamaGen的优势在于其出色的Image Tokenizer和Llama架构的扩展性。在实际生成过程中,LlamaGen在FID、IS、Precision和Recall等指标上展现出了极强的竞争力。与之前的自回归模型相比,LlamaGen在各个参数量级上均表现出色。

尽管LlamaGen已经取得了显著的成果,但研究人员也指出,目前的LlamaGen只是做到了Stable Diffusion v1阶段。未来的改进方向包括更大的分辨率、更多的Aspect Ratio、更高的可控性,以及视频生成等。

目前,LlamaGen已经支持在线体验,感兴趣的朋友可以直接访问Hugging Face上的LlamaGen空间,亲自尝试这一革命性的图像生成技术。此外,LlamaGen的开源发布,为全球的开发者和研究者提供了一个共同参与和贡献的平台。