近日,华盛顿大学的研究团队发布了一个名为 SAMURAI 的新型视觉追踪模型。该模型基于沿的 Segment Anything Model2(SAM2),旨在解决在复杂场景中进行视觉对象追踪时所遇到的挑战,尤其是在处理快速移动和自遮挡物体时。

SAM2在物体分割任务中表现出色,但在视觉追踪方面却存在一些限制。例如,在拥挤的场景中,固定窗口的记忆方式未能考虑到所选记忆的质量,这可能导致错误在视频序列中不断传播。

为了解决这一问题,研究团队提出了 SAMURAI,通过引入时间运动线索以及运动感知记忆选择机制,显著提高了物体运动的预测能力和掩膜选择的准确性。这一创新使得 SAMURAI 能够在不需要重新训练或微调的情况下,实现稳健、准确的追踪。

在实时操作方面,SAMURAI 展示了强大的零 - shot 性能,意味着该模型能够在没有经过特定数据集训练的情况下,依然表现良好。

image.png

研究团队通过评估,发现 SAMURAI 在多个基准数据集上的成功率和精度都有了显著提升。在 LaSOT-ext 数据集上,SAMURAI 实现了7.1% 的 AUC 增长,而在 GOT-10k 数据集上则获得了3.5% 的 AO 增长。此外,与完全监督的方法相比,SAMURAI 在 LaSOT 数据集上的表现同样具有竞争力,证明了其在复杂追踪场景下的鲁棒性和广泛应用潜力。

研究团队表示,SAMURAI 的成功为未来在更为复杂和动态的环境中应用视觉追踪技术奠定了基础。他们希望这一创新能够推动视觉追踪领域的发展,满足实时应用的需求,为各类智能设备提供更强的视觉识别能力。

项目入口:https://yangchris11.github.io/samurai/

划重点:

🔍 SAMURAI 是对 SAM2模型的创新改进,旨在提升在复杂场景中的视觉对象追踪能力。  

⚙️ 通过引入运动感知记忆机制,SAMURAI 能够准确预测物体运动并优化掩膜选择,避免了错误传播。  

📈 在多个基准数据集上,SAMURAI 显示出强大的零 - shot 性能,显著提高了追踪成功率和精度。