谷歌研究团队近日推出了一项突破性技术——Alchemist。这项技术使用户能够精确地编辑图片中物品的材质属性,如颜色、光泽度和透明度,而无需专业的图像编辑软件和技能。

Alchemist技术的核心是一种经过微调的"文本到图像"(Text-to-Image,T2I)生成模型。研究团队通过创建合成数据集和修改Stable Diffusion1.5模型架构,实现了对材质参数的精细控制。

QQ截图20240729101021.jpg

具体而言,研究人员首先利用计算机图形学和基于物理的渲染技术生成了大量合成图像。这些图像包含各种3D模型,并随机选择材质、相机角度和光照条件。随后,他们对这些图像的单一属性进行改变,生成具有不同编辑强度的多个版本。

通过对这些合成数据进行微调,模型学会了如何在给定上下文图像、指令和编辑强度值的情况下,仅改变指定的材质属性,同时保持物品形状和图像光照不变。

实验结果显示,该技术能够有效地改变物品的外观,如增强金属感或调整透明度。在用户研究中,与基线方法相比,这种方法在照片真实感和用户偏好方面都获得了显著优势。

QQ截图20240729101033.jpg

这项技术的应用前景广阔。它可以帮助室内设计师预览房间重新粉刷的效果,或者协助建筑师、艺术家和设计师快速制作新产品的设计草图。此外,由于编辑效果在视觉上保持一致,该技术还可用于下游的3D任务,如NeRF(神经辐射场)重建。

尽管Alchemist技术在材质编辑方面取得了显著进展,但研究团队也指出了一些局限性。例如,在处理图像中的隐藏细节时,模型仍有改进空间。

然而,研究人员对这项技术在可控材质编辑方面的潜力充满信心。随着进一步的研究和优化,Alchemist有望为图像编辑领域带来革命性的变革,使复杂的材质编辑任务变得更加简单和直观。

谷歌的Alchemist技术代表了人工智能在图像处理领域的又一重大突破。它不仅简化了复杂的图像编辑过程,还为创意产业提供了新的可能性,有望在设计、艺术和虚拟现实等多个领域产生深远影响。

项目地址:https://prafullsharma.net/alchemist/