在图像生成领域,高分辨率和逼真图像的任务一直面临多重挑战,特别是在文本到图像的合成过程中。传统的生成方法大多依赖于扩散模型和变换自回归(VAR)框架。
这些模型虽然能够产生高质量的图像,但需要消耗大量计算资源,这使得它们在实时应用中显得不够灵活。与此同时,VAR 模型在处理离散标记时容易产生累积误差,导致生成的图像细节丢,从而影响图像的真实感。
为了克服这些不足,字节跳动的研究团队推出了名为 “Infinity” 的全新框架,该框架旨在提升文本到图像合成的效率和质量。
Infinity 通过引入比特级标记替代传统的索引级标记,实现了更细粒度的表示方式,从而显著减少了量化误差并提高了生成图像的真实度。此外,该框架还使用了一个无限词汇分类器(IVC),将标记词汇扩展到2^64,大幅降低了内存和计算需求。
Infinity 架构主要由三部分组成:一种比特级多尺度量化标记器,将图像特征转化为二进制标记,以计算开销;一种基于变换器的自回归模型,该模型根据文本提示和先前输出预测残差;以及一种自我修正机制,在训练过程中引入随机比特翻转,提高模型对误差的鲁棒性。研究团队利用 LAION 和 OpenImages 等大型数据集进行训练,通过逐步提升图像分辨率,从256×256到1024×102的过程,取得了显著的进展。
经过评估,Infinity 在关键指标上显示出了优秀的性能,其 GenEval 得分为0.,Fréchet Inception Distance(FID)降低至3.48,证明了其在生成速度和质量方面的提升。Infinity 能在0.8秒内生成1024×1024的高分辨率图像,表现出其高效性和可靠性。该系统生成的图像不仅在视觉上真实且细节丰富,还能够准确响应复杂的文本指令,得到了较高的人类偏好评分。
Infinity 的推出标志着高分辨率文本到图像合成领域的新标杆,它通过创新的设计解决了长期存在的可扩展性和细节质量问题,推动了生成 AI 的进一步发展。
论文:https://arxiv.org/abs/2412.04431
划重点:
🌟 ** 创新框架 Infinity:** 字节跳动推出的 Infinity 框架,通过比特级标记化和无限词汇分类器,大幅提升高分辨率图像生成效率。
⚡ ** 卓越性能:** Infinity 在关键评估指标上超越了现有模型,能在0.8秒内生成1024×1024的高质量图像。
🖼️ ** 真实细节与响应能力:** 生成的图像不仅视觉真实,还能精准响应复杂文本提示,表现出高人类偏好评分。