Une équipe de recherche a présenté une technologie innovante de reconnaissance visuelle de localisation, Revisit Anything, capable d'identifier l'emplacement d'une image simplement en la saisissant.

Google Street View

Source : Image générée par IA, fournisseur : Midjourney

Cette technologie combine les derniers modèles SAM (Segment Anything Model) et DINO (Self-Distillation with No Labels) pour améliorer la recherche d'images segmentées et ainsi permettre une re-identification de localisation plus précise.

Le cœur de cette technologie réside dans la capacité de recherche de segments d'images. L'équipe de recherche a utilisé une série de jeux de données, notamment Baidu, VPAir, Pitts et 17places, offrant une base de test complète. Pour faciliter l'utilisation, les chercheurs recommandent de commencer par le jeu de données 17places, plus petit, pour une prise en main rapide.

Lors de la préparation des jeux de données, l'utilisateur doit s'assurer que le nom du dossier du jeu de données correspond au nom du fichier de configuration pour garantir une lecture correcte des données.

Ensuite, l'utilisateur peut choisir d'utiliser le modèle DINO ou SAM pour l'extraction de caractéristiques et générer des centres de clustering VLAD. Il est important de noter que la génération des centres de clustering est facultative ; les centres existants peuvent être directement appelés à partir du cache. Une fois l'extraction des caractéristiques terminée, l'utilisateur doit extraire le modèle PCA, puis exécuter le pipeline principal SegVLAD pour obtenir les résultats finaux. Tous les résultats peuvent être enregistrés pour faciliter les calculs de recherche hors ligne.

Cette recherche propose non seulement une nouvelle solution de reconnaissance visuelle de localisation, mais montre également comment utiliser les modèles d'apprentissage profond modernes pour l'analyse d'images, stimulant ainsi le développement de ce domaine.

Accès au projet : https://github.com/AnyLoc/Revisit-Anything

Points clés :

🌟 Cette recherche combine les technologies SAM et DINO pour proposer une nouvelle méthode de reconnaissance visuelle de localisation.

📊 L'utilisateur peut, grâce à la préparation de jeux de données spécifiques et à la configuration des fichiers de configuration, démarrer et exécuter rapidement des expériences.

🔍 La recherche fournit des étapes et des scripts détaillés pour aider l'utilisateur à obtenir des résultats SegVLAD efficaces.