Stable Diffusion 等模型的出现标志着图像生成领域取得了重大进展,但其与自回归语言模型的根本区别,阻碍了统一的语言视觉模型的开发。为解决这一问题,研究人员推出了 Meissonic,它将非自回归掩码图像建模 (MIM) 文本到图像技术提升到了与 SDXL 等最先进的扩散模型相媲美的水平。

Meissonic 的核心在于一系列架构创新、先进的位置编码策略以及优化的采样条件,这些改进显著提高了 MIM 的性能和效率。此外,Meissonic 还利用了高质量的训练数据,集成了基于人类偏好分数的微条件,并采用了特征压缩层,进一步增强了图像的保真度和分辨率。

image.png

与 SDXL 和 DeepFloyd-XL 等大型扩散模型不同,Meissonic 仅有10亿参数,却能生成1024×1024分辨率的高质量图像,并且可以在仅有8GB 显存的消费级 GPU 上运行,无需任何额外的模型优化。此外,Meissonic 可以轻松生成具有纯色背景的图像,而这在扩散模型中通常需要模型微调或噪声偏移调整。

为了实现高效的训练,Meissonic 的训练过程被分解为四个精心设计的阶段:

第一阶段:从海量数据中理解基本概念。 Meissonic 利用经过筛选的 LAION-2B 数据集,在256×256分辨率下进行训练,学习基础概念。

第二阶段:使用长提示对齐文本和图像。 训练分辨率提升至512×512,并使用高质量的合成图像文本对和内部数据集,提高模型理解长描述性提示的能力。

第三阶段:掌握特征压缩以实现更高分辨率的生成。 通过引入特征压缩层,Meissonic 可以从512×512无缝过渡到1024×1024生成,并使用精选的高质量高分辨率图像文本对进行训练。

第四阶段:优化高分辨率美学图像生成。 在这一阶段,模型使用较小的学习率进行微调,并加入人类偏好分数作为微条件,以增强模型生成高质量图像的性能。

通过一系列定量和定性指标的评估,包括 HPS、MPS、GenEval 基准测试和 GPT4o 评估,Meissonic 表现出优越的性能和效率。与 DALL-E2和 SDXL 相比,Meissonic 在人类性能和文本对齐方面都取得了竞争性的表现,同时也展现出其高效性。

此外,Meissonic 在零样本图像到图像编辑方面也表现出色。在 EMU-Edit 数据集上,Meissonic 在背景更改、图像内容更改、风格更改、对象移除、对象添加、局部修改和颜色/纹理更改等七种不同操作上均取得了领先的成绩,而这一切都无需在特定于图像编辑的数据或指令集上进行训练或微调。

项目地址:https://github.com/viiika/Meissonic

论文地址:https://arxiv.org/pdf/2410.08261