模型也套娃？苹果开源新型图像生成模型ml-mdm

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Aug 9, 2024

317

近日，科技巨头苹果公司再次展现了其强大的技术创新能力，推出了一种名为Matryoshka Diffusion Models（MDM）的全新图像和视频生成方法，这一突破性技术被形象地称为"套娃扩散模型"。

MDM的名字源自俄罗斯套娃，这个巧妙的命名不仅充满趣味性，更体现了其核心技术理念——将小的结构嵌套在大的结构之中。就像每个套娃里都藏着一个更小但同样精致的套娃一样，MDM能够在不同分辨率下同时处理图像，实现从低清晰度草图到高清晰度细节的无缝生成。

QQ截图20240809114448.jpg

这种创新方法的魅力在于它能同时驾驭多个分辨率的图像处理。想象一下，就好像有一群技艺精湛的画家，每个人专注于画布的不同区域，却又能默契配合，共同创作出一幅精美绝伦的艺术品。MDM通过在多个分辨率上进行联合去噪的技术，使得生成的图像细节更加丰富，更具真实感，大大提升了图像的整体质量。

MDM的核心架构被称为NestedUNet，这一设计理念进一步强化了"套娃"的概念。在这个架构中，每一层级都包含了一个更小但功能完整的子结构，就像套娃中的每一个都是独立完整的。这种独特的设计使得MDM在处理小规模输入时，能够充分利用高层次的特征和参数，从而实现更高效的学习和生成过程。

QQ截图20240809110221.jpg

目前，高质量图像和视频生成模型普遍面临着巨大的计算和优化挑战。传统方法要么在像素级别上逐步生成，要么先训练一个压缩图像模型，再在低分辨率图像上进行处理。而MDM的训练过程则更像是循序渐进地教导一个孩子学习走路，从蹒跚学步到健步如飞。它采用了一种渐进式训练方法，从低分辨率开始，逐步过渡到高分辨率，这种方法让模型在面对新的高分辨率图像时表现得更加稳定和高效。

苹果公司的研究团队通过一系列基准测试，充分展示了MDM的强大实力。无论是在类条件图像生成，还是文本到图像、文本到视频的转换应用中，MDM都表现出了卓越的性能。特别值得一提的是，即使在仅有1200万像素的CC12M数据集上训练，MDM也展现出了惊人的零样本泛化能力，这意味着它能够在没有见过的场景中表现出色。

研究结果显示，MDM能够生成高达1024x1024像素分辨率的图像，而且即使在相对有限的数据条件下，它也能出色地完成任务，生成符合要求的高质量图像。这一特性极大地拓展了AI图像生成技术的应用范围，为创意产业、设计行业等领域带来了新的可能性。

尽管MDM在图像和视频生成领域已经取得了令人瞩目的成就，但这可能只是冰山一角。未来的MDM有望变得更加智能，能够理解更复杂的上下文信息，生成更加真实、多样化的内容。我们可以期待，这项技术将在虚拟现实、增强现实、电影制作、游戏开发等多个领域发挥重要作用。

苹果公司推出的这项"套娃扩散模型"技术，无疑为AI图像生成领域带来了一股清新的技术风潮。它不仅提高了图像生成的效率和质量，还为整个行业的发展指明了新的方向。随着技术的不断完善和应用的深入，我们有理由相信，MDM将在未来的数字创意世界中扮演越来越重要的角色，为我们带来更多令人惊叹的视觉体验。

项目页:https://top.aibase.com/tool/ml-mdm

论文：https://arxiv.org/pdf/2310.15111

全球首个！中国发布“磐石·禹衡”碳核算大模型：精准刻画全球“碳足迹”

中国科学院上海高等研究院发布全球首个全景式碳排放核算系统“磐石·禹衡碳核算大模型”，实现从“跟跑”到“重构范式”的技术突破。该系统通过数据、算法、算力三位一体，破解传统碳核算知识壁垒高、数据更新慢、分辨率低等瓶颈，构建坚实底层支撑体系。

阿里 AI 架构大调整！李飞飞出任阿里云 CTO，通义实验室晋升“大模型事业部”

阿里巴巴宣布组织架构调整，核心是加速AI建设。CEO吴泳铭通过内部信宣布，设立集团技术委员会并升级业务部门，开启AI全面加速期。最受关注的是全球顶尖科学家李飞飞加盟，出任阿里云CTO，全面负责阿里云技术及AI云基础设施建设。

AI日报：AI视频神秘黑马Happy Horse亮相；爱诗科技 PixVerse C1 发布；360 打造“虾书”APP

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://app.aibase.com/zh1、超越Seedance2.0！8、智谱发布GLM-5.1:SWE-bench评分全球领跑，模型单价上调10%智谱发布全新大模型GLM-5.1，在SWE-benchPro基准测试中表现优异，同时在价格上实现与国际顶尖厂商的对齐，标志着行业竞争重心转向性能溢价。

程序员用AI三天生成违章举报网页版，App预计两个月内上线

成都程序员蒲海洋开发了一款AI视觉识别车辆违章自动举报程序，旨在提升交通监督效率。该项目构思于2025年，演示版一周完成，网页版借助AI工具三天生成。目前安卓与iOS客户端开发进度达80%，预计两三个月内上线应用商店。核心技术优势在于将传统举报流程自动化。

淘宝商家的“读心术”来了！网萌科技魔方 AI 质检 VOC 入驻服务市场

上海网萌公司推出“魔方 AI 质检 VOC”工具，已入驻淘宝服务市场。该工具融合AI自动化质检与用户洞察，为商家提供一站式服务风控。其核心在于双引擎能力：既充当“质检员”监控客服全链路，又作为“分析师”深入洞察用户反馈，重塑电商服务流程。

AI新闻资讯

最新AI日报

AI 商用·开源产品库

AI 产品排行榜

AI产品提交

AI工具导航

GEO品牌监测平台

GEO品牌AI能见度体检

GEO排名查询工具

GEO推广链接检测

GEO排名优化系统

GEO 大模型推荐优化

MCP服务端

MCP客户端

MCP教程与实践

MCP排行榜

MCP服务提交

MCP实验场

MCP服务调试器

大模型API聚合平台

模型库

模型供应商

大模型排行榜

大模型选型对比

大模型费用计算器

大模型竞技场

模型个人电脑配置检测器

模型部署服务器配置计算器

模型也套娃？苹果开源新型图像生成模型ml-mdm

AIbase基地

本文来自AIbase日报

相关AI新闻推荐

全球首个！中国发布“磐石·禹衡”碳核算大模型：精准刻画全球“碳足迹”

阿里 AI 架构大调整！李飞飞出任阿里云 CTO，通义实验室晋升“大模型事业部”

AI日报：AI视频神秘黑马Happy Horse亮相；爱诗科技 PixVerse C1 发布；360 打造“虾书”APP

程序员用AI三天生成违章举报网页版，App预计两个月内上线

淘宝商家的“读心术”来了！网萌科技魔方 AI 质检 VOC 入驻服务市场

​微软 GitHub 推出跨模型 AI 审查功能 Rubber Duck 助力提升编程效率

Google 强推 Gmail 版 Gemini：承诺绝不使用私密邮件练 AI

​西班牙初创公司 Xoople 获得 1.3 亿美元融资，打造 AI 卫星星座

​微软 Bing 团队开源 “Harrier” 多语言嵌入模型

腾讯正式发布“龙虾”QBotClaw:国内首个支持主流大模型API自由配置的AI浏览器

相关AI新闻推荐

全球首个！中国发布“磐石·禹衡”碳核算大模型：精准刻画全球“碳足迹”

阿里 AI 架构大调整！李飞飞出任阿里云 CTO，通义实验室晋升“大模型事业部”

AI日报：AI视频神秘黑马Happy Horse亮相；爱诗科技 PixVerse C1 发布；360 打造“虾书”APP

程序员用AI三天生成违章举报网页版，App预计两个月内上线

淘宝商家的“读心术”来了！网萌科技魔方 AI 质检 VOC 入驻服务市场

​微软 GitHub 推出跨模型 AI 审查功能 Rubber Duck 助力提升编程效率

Google 强推 Gmail 版 Gemini：承诺绝不使用私密邮件练 AI

​西班牙初创公司 Xoople 获得 1.3 亿美元融资，打造 AI 卫星星座

​微软 Bing 团队开源 “Harrier” 多语言嵌入模型

腾讯正式发布“龙虾”QBotClaw:国内首个支持主流大模型API自由配置的AI浏览器

微软 GitHub 推出跨模型 AI 审查功能 Rubber Duck 助力提升编程效率

西班牙初创公司 Xoople 获得 1.3 亿美元融资，打造 AI 卫星星座

微软 Bing 团队开源 “Harrier” 多语言嵌入模型

微软 GitHub 推出跨模型 AI 审查功能 Rubber Duck 助力提升编程效率

西班牙初创公司 Xoople 获得 1.3 亿美元融资，打造 AI 卫星星座

微软 Bing 团队开源 “Harrier” 多语言嵌入模型