无需顶级显卡，Meissonic 让你轻松生成媲美 SDXL 的高清大图！

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Nov 12, 2024

275

Stable Diffusion 等模型的出现标志着图像生成领域取得了重大进展，但其与自回归语言模型的根本区别，阻碍了统一的语言视觉模型的开发。为解决这一问题，研究人员推出了 Meissonic，它将非自回归掩码图像建模（MIM）文本到图像技术提升到了与 SDXL 等最先进的扩散模型相媲美的水平。

Meissonic 的核心在于一系列架构创新、先进的位置编码策略以及优化的采样条件，这些改进显著提高了 MIM 的性能和效率。此外，Meissonic 还利用了高质量的训练数据，集成了基于人类偏好分数的微条件，并采用了特征压缩层，进一步增强了图像的保真度和分辨率。

与 SDXL 和 DeepFloyd-XL 等大型扩散模型不同，Meissonic 仅有10亿参数，却能生成1024×1024分辨率的高质量图像，并且可以在仅有8GB 显存的消费级 GPU 上运行，无需任何额外的模型优化。此外，Meissonic 可以轻松生成具有纯色背景的图像，而这在扩散模型中通常需要模型微调或噪声偏移调整。

为了实现高效的训练，Meissonic 的训练过程被分解为四个精心设计的阶段:

第一阶段:从海量数据中理解基本概念。 Meissonic 利用经过筛选的 LAION-2B 数据集，在256×256分辨率下进行训练，学习基础概念。

第二阶段:使用长提示对齐文本和图像。训练分辨率提升至512×512，并使用高质量的合成图像文本对和内部数据集，提高模型理解长描述性提示的能力。

第三阶段:掌握特征压缩以实现更高分辨率的生成。通过引入特征压缩层，Meissonic 可以从512×512无缝过渡到1024×1024生成，并使用精选的高质量高分辨率图像文本对进行训练。

第四阶段:优化高分辨率美学图像生成。在这一阶段，模型使用较小的学习率进行微调，并加入人类偏好分数作为微条件，以增强模型生成高质量图像的性能。

通过一系列定量和定性指标的评估，包括 HPS、MPS、GenEval 基准测试和 GPT4o 评估，Meissonic 表现出优越的性能和效率。与 DALL-E2和 SDXL 相比，Meissonic 在人类性能和文本对齐方面都取得了竞争性的表现，同时也展现出其高效性。

此外，Meissonic 在零样本图像到图像编辑方面也表现出色。在 EMU-Edit 数据集上，Meissonic 在背景更改、图像内容更改、风格更改、对象移除、对象添加、局部修改和颜色/纹理更改等七种不同操作上均取得了领先的成绩，而这一切都无需在特定于图像编辑的数据或指令集上进行训练或微调。

项目地址：https://github.com/viiika/Meissonic

论文地址：https://arxiv.org/pdf/2410.08261

StableDiffusion Meissonic MIM SDXL

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

小模型逆袭！港科大快手联手打造"进化搜索"技术，让AI作画告别"大力出奇迹"

在AI作画领域，一直以来都存在一个普遍认知:想要生成高质量的图片和视频，就必须依赖更大的模型、更多的参数和更强的算力。然而，来自香港科技大学和快手科技的研究团队最近提出的EvoSearch（进化搜索）技术，正在彻底颠覆这一固有观念。这项技术最令人震撼的表现是:仅有865M参数的Stable Diffusion2.1模型在使用EvoSearch后，生成质量竟然超越了强大的GPT-4o;而1.3B参数的Wan模型配合EvoSearch，甚至能够与比它大10倍的14B模型平分秋色。现有AI生成模型的困境目前主流的AI生成模型主要分为两大

2025年6月10号 15:11

4.0k

黑森林实验室推出 FLUX.1Kontext：可通过文本和参考图像对图像进行多次修改

黑森林实验室（Black Forest Labs，简称 BFL），由著名的 Stable Diffusion 模型创作者成立，近日推出了新一代图像生成模型 FLUX.1Kontext。该模型不仅可以生成和编辑照片，还支持用户通过文本和参考图像对图像进行多次修改，为企业的 AI 应用带来了全新可能。多版本选择与平台支持BFL 推出了 FLUX.1Kontext 的三个版本:FLUX.1Kontext [pro]、FLUX.1Kontext [max] 以及即将进入私有测试阶段的 FLUX.1Kontext [dev]。目前，前两个版本已经在 KreaAI、Freepik、Lightricks、OpenArt 和 LeonardoAI 等平台上发布，供用户体验。强大的功

2025年5月30号 9:10

7.7k

字节跳动推出开源多模态模型BAGEL 从图像生成到世界建模

字节跳动近日正式发布其最新开源多模态基础模型——BAGEL（Big Advanced Generalized Embodied Learner），以70亿个有效参数的规模，开启多模态AI模型的新阶段。BAGEL在图像理解、生成和编辑等关键任务中表现卓越，已在多个标准评测中超越当前主流开源视觉语言模型(VLM)，如Qwen2.5-VL和InternVL-2.5。BAGEL模型基于大规模交错多模态数据进行训练，不仅具备强大的文本转图像生成能力，其效果甚至可媲美专业级生成器Stable Diffusion3（SD3）。在图像编辑、自由形式操作、多视图合成等复杂任务中，BAGEL的定性

2025年5月26号 9:38

6.6k

AMD显卡性能飞跃！Stable Diffusion 模型迎来优化大提升

AMD 在 AI 领域的进展值得关注，尤其是其最新发布的针对 Stable Diffusion 模型的优化。近日，Stability AI 推出了基于 ONNX 框架优化的 Stable Diffusion 版本，这意味着 AMD 的 Radeon 显卡和锐龙集显在运行 AI 任务时性能提升显著，最高可达3.8倍。这一进展不仅缩小了与 NVIDIA 在生态系统优化方面的差距，也为 AMD 用户带来了实实在在的好处。过去一年，AMD 与多个合作伙伴，包括操作系统供应商（OSV）、原始设备制造商(OEM)和独立软件开发商(ISV)，在硬件设计、驱动程序、编译器和机器学习模型等方面紧

2025年4月18号 17:54

39.3k

Snap 推出 SnapGen AI：手机上秒生成高分辨率图像

Snap Inc. 的研究团队近日推出了一款名为 SnapGen 的人工智能图像生成器，能够直接在高端手机上生成高分辨率图像。这一技术的推出，让用户在手机上也能享受高效便捷的图像创作体验，打破了传统 AI 图像生成需要强大计算能力的局限。SnapGen 的核心优势在于其模型的紧凑性与高效性。与流行的图像生成器如 SDXL 相比，SnapGen 的参数数量仅为3.79亿，约为后者的七分之一。这种小巧的设计使得 SnapGen 不仅在存储空间上占用更少，而且在运行速度上表现更为优异。根据测试结果，SnapGen 在图像与

2025年1月5号 9:51

3.3k

DeepSeek AI 发布图像理解与生成的统一 AI 框架JanusFlow，性能超越SDXL

在人工智能驱动的图像生成与理解领域，尽管取得了快速进展，但仍存在显著挑战，阻碍了一个无缝、统一的方法的发展。目前，专注于图像理解的模型往往在生成高质量图像方面表现不佳，反之亦然。这种任务分开的架构不仅增加了复杂性，还限制了效率，使得处理同时需要理解与生成的任务变得繁琐。此外，许多现有模型在有效执行任何功能时，都过于依赖于架构修改或预训练组件，这导致了性能权衡与整合挑战。为了解决这些问题，DeepSeek AI 推出了 JanusFlow，这是一个强大的 AI 框架

2024年11月13号 16:52

6.9k

Stability AI发布全新 Stable Diffusion 3.5生成模型，三个版本、速度大提升

Stability AI近日推出了其最新的深度学习文本到图像生成模型 ——Stable Diffusion3.5。这一版本包括三种改进的开源模型，旨在满足不同用户的需求，包括研究人员、企业客户和爱好者。其中，Stable Diffusion3.5Large 是整个系列中最强大的模型，参数高达81亿。该模型以其卓越的图像质量和对提示的高度响应能力，成为专业用户的理想选择，能够生成分辨率达到1兆像素的高质量图像。此外，Stable Diffusion3.5Large Turbo 是 Stable Diffusion3.5Large 的简化版。它在生成高质量图像的同时，极大地提升了速度，仅

2024年11月7号 11:25

10.3k

迪士尼推全新AI图像压缩方法：能保留图片细节，却有 “幻觉” 风险

迪士尼的研究团队最近推出了一种全新的图像压缩方法，利用开源的 Stable Diffusion V1.2模型，这种方法可以在比竞争对手更低的比特率下生成更真实的图像。这种新方法被称为 “编解码器”，尽管它比传统的 JPEG 和 AV1编解码器复杂得多，但其性能却令人惊叹。该研究表明，新方法在图像细节的恢复上表现得更为出色，同时所需的训练成本也大大降低。研究人员发现，量化误差（图像压缩中的核心过程）与噪声(扩散模型中的核心过程)非常相似，因此可以将传统量化图像视为原始图像的噪声

2024年10月31号 11:23

3.2k

ComfyUI新神器ComfyUI-Detail-Daemon：一键提升AI绘画细节，Flux模型画质再升级

近日，一款名为ComfyUI-Detail-Daemon的革命性插件正在AI绘画圈引起轰动。这款由Jonseed开发的工具，巧妙地将sd-webui-Detail-Daemon移植到ComfyUI平台，为创作者们带来了前所未有的细节优化体验。这款插件最引人注目的特点是其强大的细节增强能力。通过精确调控sigma参数，不仅能显著提升图像细节，还能智能去除多余的散景和背景模糊，特别是在处理Flux模型作品时表现出色。更值得一提的是，它还完美兼容SDXL和SD1.5等主流模型，显示出极强的适应性。该插件配备了四个功能各异的核心节点。其中

2024年10月30号 14:47

6.8k

免费开放商用！Stability AI推轻量级AI绘画利器 Stable Diffusion 3.5 Medium模型

Stability AI再次突破技术壁垒，推出全新Stable Diffusion3.5Medium模型。这款面向大众的AI绘画工具不仅完全免费开放商用，更重要的是实现了高性能与普及性的完美平衡。这款采用多模态扩散变换器（MMDiT-X）架构的模型，以25亿参数的精简设计，巧妙解决了普通用户的硬件门槛问题。仅需9.9GB显存，便能在大多数消费级显卡上流畅运行，真正实现了"人人可用"的愿景。在技术创新方面，该模型整合了三种预训练文本编码器，并引入QK标准化技术提升训练稳定性。特别值得一提的是，其前12个变换层

2024年10月30号 9:56

4.2k

AI开源&商用产品

AI产品提交

模型库

MCP服务端

MCP客户端

MCP服务调试

案例教程

AI热门资讯

今日AI热点

无需顶级显卡，Meissonic 让你轻松生成媲美 SDXL 的高清大图！

AIbase基地

本文来自AIbase日报

相关AI新闻推荐

小模型逆袭！港科大快手联手打造"进化搜索"技术，让AI作画告别"大力出奇迹"

黑森林实验室推出 FLUX.1Kontext：可通过文本和参考图像对图像进行多次修改

字节跳动推出开源多模态模型BAGEL 从图像生成到世界建模

AMD显卡性能飞跃！Stable Diffusion 模型迎来优化大提升

Snap 推出 SnapGen AI：手机上秒生成高分辨率图像

DeepSeek AI 发布图像理解与生成的统一 AI 框架JanusFlow，性能超越SDXL

Stability AI发布全新 Stable Diffusion 3.5生成模型，三个版本、速度大提升

迪士尼推全新AI图像压缩方法：能保留图片细节，却有 “幻觉” 风险

ComfyUI新神器ComfyUI-Detail-Daemon：一键提升AI绘画细节，Flux模型画质再升级

免费开放商用！Stability AI推轻量级AI绘画利器 Stable Diffusion 3.5 Medium模型

AI开源&商用产品

AI产品提交

模型库

MCP服务端

MCP客户端

MCP服务调试

案例教程

AI热门资讯

今日AI热点

无需顶级显卡，Meissonic 让你轻松生成媲美 SDXL 的高清大图！

AIbase基地

本文来自AIbase日报

相关AI新闻推荐

小模型逆袭！港科大快手联手打造"进化搜索"技术，让AI作画告别"大力出奇迹"

​黑森林实验室推出 FLUX.1Kontext：可通过文本和参考图像对图像进行多次修改

字节跳动推出开源多模态模型BAGEL 从图像生成到世界建模

AMD显卡性能飞跃！Stable Diffusion 模型迎来优化大提升

Snap 推出 SnapGen AI：手机上秒生成高分辨率图像

​DeepSeek AI 发布图像理解与生成的统一 AI 框架JanusFlow，性能超越SDXL

Stability AI发布全新 Stable Diffusion 3.5生成模型，三个版本、速度大提升

迪士尼推全新AI图像压缩方法：能保留图片细节，却有 “幻觉” 风险

ComfyUI新神器ComfyUI-Detail-Daemon：一键提升AI绘画细节，Flux模型画质再升级

免费开放商用！Stability AI推轻量级AI绘画利器 Stable Diffusion 3.5 Medium模型

黑森林实验室推出 FLUX.1Kontext：可通过文本和参考图像对图像进行多次修改

DeepSeek AI 发布图像理解与生成的统一 AI 框架JanusFlow，性能超越SDXL