迪士尼推全新AI图像压缩方法：能保留图片细节，却有 “幻觉” 风险

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年10月31号 11:23

241

迪士尼的研究团队最近推出了一种全新的图像压缩方法，利用开源的 Stable Diffusion V1.2模型，这种方法可以在比竞争对手更低的比特率下生成更真实的图像。这种新方法被称为 “编解码器”，尽管它比传统的 JPEG 和 AV1编解码器复杂得多，但其性能却令人惊叹。

该研究表明，新方法在图像细节的恢复上表现得更为出色，同时所需的训练成本也大大降低。研究人员发现，量化误差（图像压缩中的核心过程）与噪声(扩散模型中的核心过程)非常相似，因此可以将传统量化图像视为原始图像的噪声版本。在这一过程中，利用扩散模型的去噪过程来重建目标比特率下的图像。

在一系列测试中，迪士尼的新方法在准确性和细节恢复方面都超越了之前的图像压缩技术。研究者们表示，他们的方法不需要对扩散模型进行额外的微调，能够有效地使用现有的基础模型。这种新型编解码器的优越性在于其在真实感的重建上表现优异，尽管在某些情况下，它可能会出现幻觉现象，也就是生成的图像中可能会出现并不存在于原始图像中的细节。

尽管这种压缩方法在艺术作品和普通照片的呈现上有一定的影响，但在一些关乎细节的应用场景中，比如法庭证据、面部识别数据和光学字符识别（OCR）扫描等，幻觉现象的潜在风险则显得更为重要。目前，尽管这一技术仍处于初级阶段，但随着 AI 增强图像压缩技术的发展，这一领域的挑战将会逐渐显现。

为了使图像存储更加高效，迪士尼团队经过长期探索，终于推出了这一新技术。他们在 Vimeo-90k 数据集上进行训练，并在多个数据集上进行了测试，结果显示该方法在多项图像质量指标上均优于以往的方法。最终，研究者们通过用户研究也证实了他们的方法在实际应用中的优越性。

论文:https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf

划重点:
1. 🖼️ 迪士尼的新 AI 图像压缩技术能够在更低比特率下生成更真实的图像。
2. ⚙️ 该方法在细节恢复和训练成本上表现优异，且无需额外微调。
3. ⚠️ 尽管效果显著，但可能会生成与原图不符的细节，存在 “幻觉” 风险。

无需顶级显卡，Meissonic 让你轻松生成媲美 SDXL 的高清大图！

Stable Diffusion 等模型的出现标志着图像生成领域取得了重大进展，但其与自回归语言模型的根本区别，阻碍了统一的语言视觉模型的开发。为解决这一问题，研究人员推出了 Meissonic，它将非自回归掩码图像建模（MIM）文本到图像技术提升到了与 SDXL 等最先进的扩散模型相媲美的水平。Meissonic 的核心在于一系列架构创新、先进的位置编码策略以及优化的采样条件，这些改进显著提高了 MIM 的性能和效率。此外，Meissonic 还利用了高质量的训练数据，集成了基于人类偏好分数的微条件，并采用

Stability AI发布全新 Stable Diffusion 3.5生成模型，三个版本、速度大提升

Stability AI近日推出了其最新的深度学习文本到图像生成模型 ——Stable Diffusion3.5。这一版本包括三种改进的开源模型，旨在满足不同用户的需求，包括研究人员、企业客户和爱好者。其中，Stable Diffusion3.5Large 是整个系列中最强大的模型，参数高达81亿。该模型以其卓越的图像质量和对提示的高度响应能力，成为专业用户的理想选择，能够生成分辨率达到1兆像素的高质量图像。此外，Stable Diffusion3.5Large Turbo 是 Stable Diffusion3.5Large 的简化版。它在生成高质量图像的同时，极大地提升了速度，仅

迪士尼研发新型AI图像编解码器压缩效率提升显著

迪士尼研究部门近日发布了一项创新的图像压缩技术，该技术在保持较低数据传输率的同时，能够生成更为逼真的图像效果。这项新型编解码技术虽然在复杂度上较传统的JPEG和AV1等编解码器有所提升，但在图像质量和处理效率方面都展现出显著优势。研究团队发现，通过将量化误差与图像处理中的噪声处理相结合，可以在目标比特率下更好地重建图像细节。迪士尼压缩方法与之前方法的比较。作者声称细节恢复效果有所改善，同时提供了一种不需要数十万美元训练的模型，并且运行速度比

免费开放商用！Stability AI推轻量级AI绘画利器 Stable Diffusion 3.5 Medium模型

Stability AI再次突破技术壁垒，推出全新Stable Diffusion3.5Medium模型。这款面向大众的AI绘画工具不仅完全免费开放商用，更重要的是实现了高性能与普及性的完美平衡。这款采用多模态扩散变换器（MMDiT-X）架构的模型，以25亿参数的精简设计，巧妙解决了普通用户的硬件门槛问题。仅需9.9GB显存，便能在大多数消费级显卡上流畅运行，真正实现了"人人可用"的愿景。在技术创新方面，该模型整合了三种预训练文本编码器，并引入QK标准化技术提升训练稳定性。特别值得一提的是，其前12个变换层

AI新闻资讯