迪士尼的研究团队最近推出了一种全新的图像压缩方法,利用开源的 Stable Diffusion V1.2模型,这种方法可以在比竞争对手更低的比特率下生成更真实的图像。这种新方法被称为 “编解码器”,尽管它比传统的 JPEG 和 AV1编解码器复杂得多,但其性能却令人惊叹。
该研究表明,新方法在图像细节的恢复上表现得更为出色,同时所需的训练成本也大大降低。研究人员发现,量化误差(图像压缩中的核心过程)与噪声(扩散模型中的核心过程)非常相似,因此可以将传统量化图像视为原始图像的噪声版本。在这一过程中,利用扩散模型的去噪过程来重建目标比特率下的图像。
在一系列测试中,迪士尼的新方法在准确性和细节恢复方面都超越了之前的图像压缩技术。研究者们表示,他们的方法不需要对扩散模型进行额外的微调,能够有效地使用现有的基础模型。这种新型编解码器的优越性在于其在真实感的重建上表现优异,尽管在某些情况下,它可能会出现幻觉现象,也就是生成的图像中可能会出现并不存在于原始图像中的细节。
尽管这种压缩方法在艺术作品和普通照片的呈现上有一定的影响,但在一些关乎细节的应用场景中,比如法庭证据、面部识别数据和光学字符识别(OCR)扫描等,幻觉现象的潜在风险则显得更为重要。目前,尽管这一技术仍处于初级阶段,但随着 AI 增强图像压缩技术的发展,这一领域的挑战将会逐渐显现。
为了使图像存储更加高效,迪士尼团队经过长期探索,终于推出了这一新技术。他们在 Vimeo-90k 数据集上进行训练,并在多个数据集上进行了测试,结果显示该方法在多项图像质量指标上均优于以往的方法。最终,研究者们通过用户研究也证实了他们的方法在实际应用中的优越性。
论文:https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf
划重点:
1. 🖼️ 迪士尼的新 AI 图像压缩技术能够在更低比特率下生成更真实的图像。
2. ⚙️ 该方法在细节恢复和训练成本上表现优异,且无需额外微调。
3. ⚠️ 尽管效果显著,但可能会生成与原图不符的细节,存在 “幻觉” 风险。