多模态生成模型正引领人工智能的最新潮流,致力于融合视觉与文本数据,创造出能完成多种任务的系统。这些任务从根据文字描述生成高细节的图像到跨数据类型的理解与推理,推动着更互动、智能的 AI 系统的诞生,令视觉和语言无缝结合。

在这个领域,一个关键的挑战是开发自回归(AR)模型,使其能够根据文本描述生成逼真的图像。尽管扩散模型在这一领域取得了显著进展,但自回归模型的表现却相对滞后,尤其是在图像质量、分辨率灵活性以及处理各种视觉任务的能力方面。这一差距促使研究人员寻找创新方法,以提升 AR 模型的能力。

image.png

当前,文本转图像生成的领域大多被扩散模型占据,这些模型在生成高质量、视觉吸引力十足的图像方面表现优异。然而,像 LlamaGen 和 Parti 这样的 AR 模型在这一方面却显得力不从心。它们往往依赖复杂的编码 - 解码架构,并且通常只能生成固定分辨率的图像。这种限制大大降低了它们在生成多样化、高分辨率输出方面的灵活性和有效性。

为了打破这一瓶颈,上海 AI 实验室和香港中文大学的研究人员推出了 Lumina-mGPT,这是一种先进的 AR 模型,旨在克服这些限制。Lumina-mGPT 基于解码器 - only 的变换器架构,采用了多模态生成预训练(mGPT)的方法。该模型将视觉与语言任务融入统一框架,目标是实现与扩散模型同等水平的逼真图像生成,同时保持 AR 方法的简便和可扩展性。

image.png

Lumina-mGPT 在增强图像生成能力方面采取了一种详尽的方法,其核心是灵活渐进的监督微调(FP-SFT)策略。该策略从低分辨率逐步训练模型生成高分辨率图像,首先在较低分辨率下学习一般的视觉概念,然后逐步引入更复杂的高分辨率细节。此外,该模型还引入了一种创新的明确图像表示系统,通过引入特定的高度和宽度指示符以及行尾标记,消除了与可变图像分辨率和纵横比相关的模糊性。

在性能方面,Lumina-mGPT 在生成逼真图像方面显著超越了之前的 AR 模型。它能够生成1024×1024像素的高分辨率图像,细节丰富,与提供的文本提示高度一致。研究人员报告称,Lumina-mGPT 仅需1000万对图像 - 文本进行训练,远低于 LlamaGen 所需的500万对图像 - 文本。尽管数据集较小,Lumina-mGPT 在图像质量和视觉一致性方面依然超越了竞争对手。此外,该模型支持视觉问答、密集标注和可控图像生成等多种任务,展现出其作为多模态通才的灵活性。

其灵活且可扩展的架构进一步增强了 Lumina-mGPT 生成多样化、高质量图像的能力。该模型使用先进的解码技术,如无分类器引导(CFG),在提高生成图像质量方面发挥着重要作用。比如,通过调整温度和 top-k 值等参数,Lumina-mGPT 可以控制生成图像的细节和多样性,帮助减少视觉伪影,提升整体美观。

Lumina-mGPT 在自回归图像生成领域标志着重大的进步。这一由上海 AI 实验室和香港中文大学的研究人员开发的模型,成功架起了 AR 模型与扩散模型之间的桥梁,为从文本生成逼真图像提供了强有力的新工具。其在多模态预训练和灵活微调方面的创新方法,展示了 AR 模型潜在的变革能力,预示着未来将有更加复杂和多才多艺的 AI 系统诞生。

项目地址:https://top.aibase.com/tool/lumina-mgpt

在线试玩地址:https://106.14.2.150:10020/