Un equipo de investigación ha presentado Revisit Anything, una innovadora tecnología de reconocimiento de ubicación visual. Solo con introducir una imagen, puede identificar el lugar donde se tomó.

Mapa de Google Street View

Nota de la fuente: Imagen generada por IA, proveedor de servicios de licencias de imágenes Midjourney

Esta tecnología combina los últimos modelos SAM (Segment Anything Model) y DINO (Self-Distillation with No Labels) para mejorar la recuperación de segmentos de imagen y lograr un reconocimiento de ubicación más preciso.

El núcleo de esta tecnología radica en la capacidad de recuperación de segmentos de imágenes. El equipo de investigación utilizó una serie de conjuntos de datos, incluyendo Baidu, VPAir, Pitts y 17places, proporcionando una base de prueba completa. Para facilitar su uso, los investigadores recomiendan comenzar con el conjunto de datos 17places, que es más pequeño, para un aprendizaje rápido.

Al preparar los conjuntos de datos, los usuarios deben asegurarse de que el nombre de la carpeta del conjunto de datos coincida con el nombre en el archivo de configuración para garantizar una lectura correcta de los datos.

A continuación, los usuarios pueden elegir utilizar los modelos DINO o SAM para la extracción de características y generar centros de agrupación VLAD. Cabe destacar que la generación de centros de agrupación es opcional; los centros existentes se pueden llamar directamente desde la caché. Después de la extracción de características, los usuarios deben extraer el modelo PCA y luego ejecutar el pipeline principal de SegVLAD para obtener los resultados finales. Todos los resultados se pueden guardar para facilitar el cálculo de recuperación sin conexión.

Esta investigación no solo proporciona una nueva solución para el reconocimiento de ubicación visual, sino que también muestra cómo utilizar los modelos modernos de aprendizaje profundo para el análisis de imágenes, impulsando el desarrollo futuro de este campo.

Enlace al proyecto: https://github.com/AnyLoc/Revisit-Anything

Puntos clave:

🌟 Esta investigación combina las tecnologías SAM y DINO para presentar un nuevo método de reconocimiento de ubicación visual.

📊 Los usuarios pueden utilizar la preparación específica de los conjuntos de datos y la configuración del archivo de configuración para comenzar rápidamente y ejecutar experimentos.

🔍 La investigación proporciona pasos y scripts detallados para ayudar a los usuarios a lograr resultados eficientes con SegVLAD.