有研究团队展示了一种创新的视觉位置识别技术Revisit Anything,只要输入图片,就能能识别出图片中是在什么地方。

谷歌街景地图

图源备注:图片由AI生成,图片授权服务商Midjourney

这项技术结合了最新的 SAM(Segment Anything Model)和 DINO(Self-Distillation with No Labels),旨在提升图像段的检索效果,从而实现更精确的地点重识别。

这项技术的核心在于图分段的检索能力,研究团队使用了一系列数据集,包括 Baidu、VPAir、Pitts 和17places 等,提供了全面的测试基础。为了方便用户使用,研究者建议大家从17places 这个较小的数据集开始,这样可以快速上手。

在准备数据集时,用户需要确保将数据集的文件夹名称与配置文件中的名称一致,确保数据能够顺利读取。

接下来,用户可以选择使用 DINO 或 SAM 模型进行特征提取,并生成 VLAD 聚类中心。值得注意的是,生成聚类中心的步骤是可选的,已有的中心可以直接从缓存中调用。完成特征提取后,用户需要提取 PCA 模型,然后运行主 SegVLAD 管道以获取最终结果。所有结果都可以选择保存,方便后续的离线检索计算。

这项研究不仅提供了一种新的视觉位置识别方案,还展示了如何利用现代深度学习模型进行图像分析,推动了该领域的进一步发展。

项目入口:https://github.com/AnyLoc/Revisit-Anything

划重点:

🌟 该研究结合了 SAM 和 DINO 技术,推出了一种新颖的视觉位置识别方法。  

📊 用户可通过特定的数据集准备和配置文件设置,快速上手并运行实验。  

🔍 研究提供了详细的步骤和脚本,帮助用户实现 SegVLAD 的高效结果。