在这个AI技术飞速发展的时代,我们见证了许多神奇的创新,比如最近火遍朋友圈的“Diffree”。这可不是一款新推出的手机游戏,而是一项能让设计师和摄影师们欢呼雀跃的AI图像处理技术。

它能够根据你的文字描述,在图片中“无痕迹”地添加新物体,就像拥有了一件“隐身斗篷”。你不需要手动添加遮罩或模板,模型就能自动预测对象的位置和形状,实现无缝融合添加新对象。

想象一下,你是一位室内设计师,需要向客户展示不同装饰品的效果。以前,你可能需要手动P图或者重新拍摄,但现在,你只需要告诉Diffree你的需求,它就能在照片中“神不知鬼不觉”地添加上新的装饰品,而且看起来毫无违和感。

image.png

这项技术的核心在于它的“文本引导”功能。你只需要输入一些简单的文字描述,比如“在沙发上放一个抱枕”,Diffree就能理解你的需求,并在沙发上“变”出一个抱枕来。而且光线、色调、颜色等可以与原始图像保持一致。

那么,Diffree是如何做到的呢?这得归功于它背后的“文本到图像”(T2I)模型。这个模型通过训练,学会了如何根据文本描述生成图像内容。Diffree利用了一个名为“Stable Diffusion”的扩散模型,并通过一个额外的遮罩预测模块来预测新物体的理想位置。

为了让Diffree能够更好地理解现实世界,研究者们创建了一个名为“OABench”的合成数据集。这个数据集包含了74K个真实世界的图像和文本对,它们被用来训练Diffree,使其能够准确地在图像中添加物体,同时保持背景的一致性。

Diffree的超能力可不止于此。它不仅能在图像中添加单个物体,还能在同一个图像中多次添加不同的物体,而且每次添加都能保持背景的一致性。这就像是在玩一个高级版的“大家来找茬”游戏,但这次,AI能在不改变背景的情况下,巧妙地加入新的元素。

研究人员们通过一系列实验证明了Diffree的优越性。无论是在成功率、物体的合理性、质量、多样性还是相关性方面,Diffree都表现出色,远超其他基于文本引导和遮罩引导的技术。

Diffree的问世,不仅仅是技术上的一次飞跃,更是对设计师、摄影师甚至普通用户的一大福音。它降低了图像编辑的门槛,让每个人都能成为创造者。未来的Diffree,或许还能与其他AI技术结合,开拓出更多令人惊叹的应用场景。

项目地址:https://top.aibase.com/tool/diffree