颠覆传统！Lumina-mGPT 可以从文本中创建逼真且高分辨率的图像

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Aug 15, 2024

277

多模态生成模型正引领人工智能的最新潮流，致力于融合视觉与文本数据，创造出能完成多种任务的系统。这些任务从根据文字描述生成高细节的图像到跨数据类型的理解与推理，推动着更互动、智能的 AI 系统的诞生，令视觉和语言无缝结合。

在这个领域，一个关键的挑战是开发自回归（AR）模型，使其能够根据文本描述生成逼真的图像。尽管扩散模型在这一领域取得了显著进展，但自回归模型的表现却相对滞后，尤其是在图像质量、分辨率灵活性以及处理各种视觉任务的能力方面。这一差距促使研究人员寻找创新方法，以提升 AR 模型的能力。

当前，文本转图像生成的领域大多被扩散模型占据，这些模型在生成高质量、视觉吸引力十足的图像方面表现优异。然而，像 LlamaGen 和 Parti 这样的 AR 模型在这一方面却显得力不从心。它们往往依赖复杂的编码 - 解码架构，并且通常只能生成固定分辨率的图像。这种限制大大降低了它们在生成多样化、高分辨率输出方面的灵活性和有效性。

为了打破这一瓶颈，上海 AI 实验室和香港中文大学的研究人员推出了 Lumina-mGPT，这是一种先进的 AR 模型，旨在克服这些限制。Lumina-mGPT 基于解码器 - only 的变换器架构，采用了多模态生成预训练（mGPT）的方法。该模型将视觉与语言任务融入统一框架，目标是实现与扩散模型同等水平的逼真图像生成，同时保持 AR 方法的简便和可扩展性。

Lumina-mGPT 在增强图像生成能力方面采取了一种详尽的方法，其核心是灵活渐进的监督微调（FP-SFT）策略。该策略从低分辨率逐步训练模型生成高分辨率图像，首先在较低分辨率下学习一般的视觉概念，然后逐步引入更复杂的高分辨率细节。此外，该模型还引入了一种创新的明确图像表示系统，通过引入特定的高度和宽度指示符以及行尾标记，消除了与可变图像分辨率和纵横比相关的模糊性。

在性能方面，Lumina-mGPT 在生成逼真图像方面显著超越了之前的 AR 模型。它能够生成1024×1024像素的高分辨率图像，细节丰富，与提供的文本提示高度一致。研究人员报告称，Lumina-mGPT 仅需1000万对图像 - 文本进行训练，远低于 LlamaGen 所需的500万对图像 - 文本。尽管数据集较小，Lumina-mGPT 在图像质量和视觉一致性方面依然超越了竞争对手。此外，该模型支持视觉问答、密集标注和可控图像生成等多种任务，展现出其作为多模态通才的灵活性。

其灵活且可扩展的架构进一步增强了 Lumina-mGPT 生成多样化、高质量图像的能力。该模型使用先进的解码技术，如无分类器引导（CFG），在提高生成图像质量方面发挥着重要作用。比如，通过调整温度和 top-k 值等参数，Lumina-mGPT 可以控制生成图像的细节和多样性，帮助减少视觉伪影，提升整体美观。

Lumina-mGPT 在自回归图像生成领域标志着重大的进步。这一由上海 AI 实验室和香港中文大学的研究人员开发的模型，成功架起了 AR 模型与扩散模型之间的桥梁，为从文本生成逼真图像提供了强有力的新工具。其在多模态预训练和灵活微调方面的创新方法，展示了 AR 模型潜在的变革能力，预示着未来将有更加复杂和多才多艺的 AI 系统诞生。

项目地址：https://top.aibase.com/tool/lumina-mgpt

在线试玩地址：https://106.14.2.150:10020/

多模态生成模型自回归模型扩散模型 LlamaGen

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

「6月30日AI日报」百度开源文心大模型4.5系列；通义千问多模态生成模型Qwen VLo

欢迎来到AIbase【AI日报】栏目!每天三分钟了解当日AI大事件，助你洞悉AI行业趋势、创新AI产品应用。更多AI资讯访问:https://www.aibase.com/zh1.百度重磅开源文心大模型4.5系列，十款新模型亮相!百度正式发布文心大模型4.5系列并完全开源，包含多种参数配置的十款新模型，使用飞桨框架训练推理，FLOPs利用率47%，在文本多模态基准测试中表现优异，提供一站式使用指南和工具，方便开发者精调部署，已上传至Hugging Face、GitHub等平台。体验地址:https://yiyan.baidu.com Hugging Face:https://huggingface.co/baidu）Gi

2025年6月30号 16:33

1.8k

欧洲首台百万兆次级超级计算机 JUPITER 启用

在气候变化和自然现象模拟的研究中，强大的计算能力至关重要。为此，位于德国的于利希超级计算中心（Jülich Supercomputing Center）近日推出了欧洲首台百万兆次级超级计算机 JUPITER(木星)。这台计算机的强大处理能力为科学研究带来了全新的可能性。图源备注：图片由AI生成，图片授权服务商MidjourneyJUPITER 于2025年6月首次亮相于全球最强大计算机系统的 TOP500排行榜上，位列第四。它拥有5900个加速计算节点，配备了约24000颗 Nvidia Grace-Hopper 超级芯片和1300个使用 Rhea1处理器的节点。此外，JUPIT

2025年6月30号 16:14

930

新开源 AI 系统 OmniGen 2：像GPT-4o 一样融合了图像和文本生成

近日，北京人工智能研究院推出了全新的开源系统 ——OmniGen2。这一系统专注于文本到图像的生成、图像编辑和上下文图像创作。与2024年发布的第一代 OmniGen 相比，OmniGen2采用了两条独立的解码路径:一条用于文本生成，另一条用于图像生成，且各自拥有独立的参数和解耦的图像标记器。这种设计让模型在保持文本生成能力的同时，有效地提升了多模态语言模型的表现。OmniGen2的核心是一个基于 Qwen2.5-VL-3B 变换器的大型多模态语言模型（MLLM）。在图像生成方面，该系统使用了一种自定义的扩

2025年6月30号 14:54

1.3k

百度重磅开源文心大模型 4.5 系列，国内大模型市场再掀波澜！

近日，百度正式宣布开源其文心大模型4.5系列，共推出了十款模型，包括47B、3B 激活参数的混合专家（MoE）模型，以及0.3B 参数的稠密型模型。此次开源不仅实现了预训练权重的完整公开，还提供了推理代码，标志着百度在大模型领域的重大进展。这些新发布的模型可以在飞桨星河社区、Hugging Face 等平台上下载和部署，同时，百度智能云千帆大模型平台也提供了相应的 API 服务。这一举措使百度成为国内继腾讯、阿里、字节跳动之后，又一家积极参与开源的科技巨头，表明其在大模型应用

2025年6月30号 14:23

1.0k

百度重磅开源文心大模型 4.5 系列，十款新模型亮相！

百度正式发布了文心大模型4.5系列模型，并且将其完全开源。用户可以通过文心一言（https://yiyan.baidu.com）立即体验这一最新的开源技术。这一系列模型涵盖了多种参数配置，包括激活参数为47B 和3B 的混合专家（MoE）模型，以及稠密型模型0.3B 参数的设计，合计达到了十款不同的模型。在训练和推理方面，文心4.5系列模型使用了飞桨深度学习框架，达到47% 的模型 FLOPs 利用率。实验结果显示，该系列模型在多项文本和多模态基准测试中表现优异，尤其是在指令遵循、世界知识记忆、视觉理

2025年6月30号 11:21

1.1k

重磅消息！GPT-5 即将登场，带你体验全新多模态 AI 时代！

近日，关于 OpenAI 即将发布的 GPT-5的消息引发了科技界的广泛关注。据内部人士透露，GPT-5已经开始灰度测试，预计将在今年7月正式上线。这一代新模型将采用多模态设计，意味着它不仅能够处理文字输入，还能理解语音、图像、代码甚至视频，彻底改变我们与 AI 的互动方式。OpenAI 的首席执行官 Sam Altman 表示，GPT-5的推出将标志着 AI 技术的一次重大飞跃。这款新模型具备深度推理能力，能够进行实时视频生成，并且能够编写大量代码，进一步拓展了 AI 的应用场景。与之前的版本相比，GPT

2025年6月30号 11:10

3.0k

Gemini2.5Pro API 免费回归，开发者社区热烈响应

近日，谷歌宣布其旗舰AI模型Gemini2.5Pro的API重新纳入Google AI Studio的免费层级，这一消息引发了开发者社区的广泛关注和热烈讨论。根据AIbase报道，这一举措标志着谷歌在AI技术普及化方面的又一重要进展，为开发者提供了更低门槛的创新机会。Gemini2.5Pro作为谷歌迄今为止最先进的AI模型，以其卓越的多模态能力和强大的推理性能而闻名。该模型支持高达100万token的上下文窗口，能够处理文本、图像、音频和视频等多种输入类型，在编码、复杂推理和数据分析等任务中表现尤为突出。此前，谷

2025年6月30号 10:41

3.0k

百度文心系列大模型在飞桨平台开源，涵盖多款最新模型

百度旗下文心系列大模型近日已在其飞桨（PaddlePaddle）平台开源，其中包括 ERNIE-4.5-VL-424B-A47B-Paddle 和 ERNIE-4.5-300B-A47B-Paddle 等数十款最新模型。尽管百度方面尚未主动披露此次开源行动，但飞桨平台的更新信息显示，这一系列动作集中在6月29日至6月30日，是其最新的举措。有内部人士证实:“官网上新并公布了开源代码，足见公司确实已在推进开源举措。”此次开源，将使更多开发者和研究者能够利用百度文心系列大模型的强大能力，推动人工智能技术的发展和应用。

2025年6月30号 10:24

1.5k

显存优化！英伟达 DLSS 4 让游戏更流畅，Transformer 模型显存减少 20%

在游戏性能日益提升的今天，英伟达再次引领了显卡技术的潮流。最新发布的 DLSS4SDK，不仅正式上线，还在显存（VRAM）的使用上进行了重大优化，让玩家们在享受高质量游戏画面的同时，显卡的负担也大大减轻。根据相关报道，英伟达在最新的 DLSS310.3.0版本中，对 Transformer 模型的显存占用进行了20% 的优化。之前，DLSS 的 Transformer 模型在显存使用上几乎是传统 CNN 模型的两倍，这让不少玩家在高分辨率游戏时感到压力。然而，经过优化后，Transformer 模型的显存占用仅比 CNN 模型多出40%。在1

2025年6月30号 10:10

1.4k

阿里Ovis-U1震撼发布：多模态AI三合一，开源赋能全球开发者

2025年6月29日，阿里巴巴国际AI团队正式发布了全新多模态大模型 **Ovis-U1**，标志着其在多模态人工智能领域的又一重大突破。作为Ovis系列的最新力作，Ovis-U1将多模态理解、图像生成和图像编辑功能融为一体，展现了强大的跨模态处理能力，为开发者、研究者和行业应用提供了全新的可能性。以下是AIbase对Ovis-U1的详细报道。Ovis-U1:三合一的多模态统一框架Ovis-U1是阿里巴巴国际AI团队基于Ovis系列架构打造的3亿参数模型，首次实现了多模态理解、文生图像和图像编辑的统一。据AIbase了解，该模

2025年6月30号 9:57

3.8k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图