在视频分析领域,物体的持久性是人类理解物体即使在完全遮挡情况下依然存在的重要线索。然而,目前的物体分割方法大多只关注可见(模态)物体,而缺乏对无模态(可见 + 不可见)物体的处理。

针对这一问题,研究人员提出了一种基于扩散先验的两阶段方法Diffusion-Vas,旨在提升视频无模态分割和内容补全的效果,能追踪视频中的指定目标,然后利用扩散模型补全被遮挡的部分。

image.png

该方法的第一阶段涉及生成物体的无模态掩码。研究人员通过将可见掩码序列与伪深度图结合,来推断物体边界的遮挡情况。伪深度图是通过对 RGB 视频序列进行单目深度估计得到的。这一阶段的目标是确定物体在场景中可能被遮挡的部分,从而扩展物体的完整轮廓。

第一阶段生成的无模态掩码基础上,第二阶段则负责对遮挡区域进行内容补全。研究团队利用模态 RGB 内容,运用条件生成模型对遮挡区域进行填补,最终生成完整的无模态 RGB 内容。整个过程采用了一个以3D UNet 为骨干网络的条件潜在扩散框架,确保了生成结果的高保真度。

为了验证其有效性,研究团队在四个数据集上对新方法进行了基准测试,结果表明,较之于多种先进的方法,其在物体被遮挡区域的无模态分割上提高了多达13% 的准确率。尤其是在处理复杂场景时,研究方法展示了出色的稳健性,能够有效应对强烈的相机运动和频繁的完全遮挡。

这一研究不仅提升了视频分析的精确度,也为理解物体在复杂场景中的存在性提供了新的视角。未来,该技术有望被应用于自动驾驶、监控视频分析等多个领域。

项目:https://diffusion-vas.github.io/

划重点:  

🌟 研究提出了一种新方法,通过扩散先验实现视频中的无模态分割和内容补全。  

🖼️ 方法分为两阶段,首先生成无模态掩码,然后进行遮挡区域的内容补全。  

📊 在多项基准测试中,该方法显著提高了无模态分割的准确性,尤其在复杂场景下表现优异。