Récemment, une équipe de chercheurs de l'Université de Washington a publié un nouveau modèle de suivi visuel appelé SAMURAI. Ce modèle, basé sur le Segment Anything Model 2 (SAM2), vise à relever les défis du suivi d'objets visuels dans des scénarios complexes, notamment lorsqu'il s'agit d'objets se déplaçant rapidement ou subissant une auto-occultation.
SAM2 excelle dans les tâches de segmentation d'objets, mais présente certaines limitations en matière de suivi visuel. Par exemple, dans les scènes encombrées, la méthode de mémorisation à fenêtre fixe ne tient pas compte de la qualité de la mémoire sélectionnée, ce qui peut entraîner une propagation des erreurs dans la séquence vidéo.
Pour résoudre ce problème, l'équipe de recherche a proposé SAMURAI, qui, grâce à l'introduction d'indices de mouvement temporel et d'un mécanisme de sélection de mémoire sensible au mouvement, améliore considérablement la capacité de prédiction du mouvement des objets et la précision de la sélection du masque. Cette innovation permet à SAMURAI de réaliser un suivi robuste et précis sans nécessiter de réentraînement ni d'ajustement.
En termes d'opération en temps réel, SAMURAI a démontré de solides performances « zero-shot », ce qui signifie que le modèle peut fonctionner efficacement sans avoir été entraîné sur un ensemble de données spécifique.
L'équipe de recherche a constaté, par le biais d'évaluations, que SAMURAI a permis d'améliorer considérablement le taux de réussite et la précision sur plusieurs ensembles de données de référence. Sur l'ensemble de données LaSOT-ext, SAMURAI a réalisé une augmentation de 7,1 % de l'AUC, tandis que sur l'ensemble de données GOT-10k, il a obtenu une augmentation de 3,5 % de l'AO. De plus, comparé aux méthodes entièrement supervisées, SAMURAI affiche des performances compétitives sur l'ensemble de données LaSOT, démontrant ainsi sa robustesse et son potentiel d'application large dans des scénarios de suivi complexes.
L'équipe de recherche indique que le succès de SAMURAI jette les bases de l'application future des techniques de suivi visuel dans des environnements plus complexes et dynamiques. Ils espèrent que cette innovation stimulera le développement du domaine du suivi visuel, répondra aux besoins des applications en temps réel et offrira aux différents appareils intelligents une capacité de reconnaissance visuelle améliorée.
Accès au projet : https://yangchris11.github.io/samurai/
Points clés :
🔍 SAMURAI est une amélioration innovante du modèle SAM2, visant à améliorer la capacité de suivi des objets visuels dans des scénarios complexes.
⚙️ Grâce à l'introduction d'un mécanisme de mémoire sensible au mouvement, SAMURAI peut prédire avec précision le mouvement des objets et optimiser la sélection du masque, évitant ainsi la propagation des erreurs.
📈 Sur plusieurs ensembles de données de référence, SAMURAI affiche de solides performances « zero-shot », améliorant considérablement le taux de réussite et la précision du suivi.