近期,来自香港大学和字节跳动的研究团队发布了一项名为 LlamaGen 的创新技术,将大型语言模型的原始下一个标记预测范式应用于视觉生成领域。通过重新审视图像分词器的设计空间、图像生成模型的可伸缩性属性及其训练数据质量,他们成功开发出一种新型的图像生成模型,称为 LlamaGen。

image.png

产品入口:https://top.aibase.com/tool/llamagen

LlamaGen 是对传统图像生成模型的一次颠覆性创新,它证明了即使在没有视觉信号归纳偏差的情况下,普通的自回归模型也能够实现领先的图像生成性能,只要合理地进行规模化处理。LlamaGen自回归即Transformer的输出下一个token作为预测再下一个token的输入,使用的是LLaMA架构,没有使用Diffusion模型。这一发现给图像生成领域带来了新的可能性和启发,为未来的图像生成研究提供了新的思路和方向。

LlamaGen特点包括:

图像分词器:推出了具有16倍降采样比、0.94的重建质量和97% 码书利用率的图像分词器,在 ImageNet 基准测试上表现优异。

image.png

 类别条件图像生成模型:推出了从111M 到3.1B 参数范围内的一系列类别条件图像生成模型,在 ImageNet256×256基准测试上取得了2.18的 FID,超越了流行的扩散模型。

image.png

image.png

文本条件图像生成模型:推出了具有775M 参数的文本条件图像生成模型,经过 LAION-COCO 的两阶段训练,能够生成高质量的美学图像,并展现出优秀的视觉质量和文本对齐性能。

image.png

服务框架 vllm:验证了 LLM 服务框架在优化图像生成模型推断速度方面的有效性,实现了326% 至414% 的加速。

image.png

在该项目中,研究团队发布了两种图像分割器、七种类条件生成模型和两种文本条件生成模型,同时提供了在线演示和高吞吐量的服务框架。这些模型和工具的发布,为开发者和研究人员提供了丰富的资源和工具,使他们能够更好地理解和应用 LlamaGen 技术。