Dans le domaine du traitement vidéo, le suivi efficace du mouvement 3D à partir d'une seule caméra est un défi de taille, surtout lorsqu'il s'agit de suivre des séquences longues avec une précision pixellique. Les méthodes traditionnelles sont confrontées à de multiples défis et ne peuvent souvent suivre qu'un petit nombre de points clés, empêchant une compréhension détaillée de la scène entière.
De plus, les techniques existantes ont des besoins de calcul élevés, ce qui rend difficile le maintien de l'efficacité lors du traitement de longues vidéos. Le suivi prolongé est également affecté par le mouvement de la caméra et l'occlusion des objets, entraînant des erreurs de suivi.
Actuellement, les méthodes d'estimation du mouvement de séquences vidéo présentent chacune des avantages et des inconvénients. La technique du flot optique fournit un suivi dense des pixels, mais elle manque de robustesse dans les scènes complexes, notamment pour les longues séquences.
Le flux de scène est une extension du flot optique, utilisant des données RGB-D ou des nuages de points pour estimer le mouvement 3D dense, mais son application reste difficilement efficace sur de longues séquences. Les méthodes de suivi de points, bien qu'elles puissent capturer les trajectoires de mouvement et combiner l'attention spatiale et temporelle pour un suivi plus fluide, restent limitées par leur coût de calcul élevé, empêchant une surveillance dense. De plus, les méthodes de suivi basées sur la reconstruction utilisent des champs de déformation pour estimer le mouvement, mais leur utilité est limitée dans les applications en temps réel.
Récemment, une équipe de chercheurs de l'Université du Massachusetts Amherst, du laboratoire d'intelligence artificielle MIT-IBM Watson et de Snap Inc. a proposé DELTA (Dense Efficient Long-range 3D Tracking for Any video), une méthode conçue pour le suivi efficace du mouvement 3D de chaque pixel. DELTA commence par un suivi à basse résolution, utilise un mécanisme d'attention spatio-temporelle et applique un sur-échantillonneur basé sur l'attention pour atteindre une précision haute résolution. Ses innovations clés incluent un sur-échantillonneur pour des limites de mouvement claires, une architecture d'attention spatiale efficace et une représentation de profondeur logarithmique pour améliorer les performances de suivi.
DELTA a obtenu des résultats de pointe sur les ensembles de données CVO et Kubric3D, améliorant de plus de 10 % les indicateurs tels que le Jaccard moyen (AJ) et la différence de position moyenne 3D (APD3D). Il a également démontré d'excellentes performances sur les benchmarks de suivi de points 3D TAP-Vid3D et LSFOdyssey. Contrairement aux méthodes existantes, DELTA réalise un suivi 3D dense à grande échelle, fonctionnant 8 fois plus vite que les méthodes précédentes tout en conservant une précision de pointe.
Les expériences montrent que DELTA excelle dans les tâches de suivi 3D, surpassant les méthodes précédentes en termes de vitesse et de précision. DELTA a été entraîné sur l'ensemble de données Kubric, contenant plus de 5600 vidéos, sa fonction de perte combinant les coordonnées 2D, la profondeur et la perte de visibilité.
Lors des tests de référence, DELTA a obtenu les meilleurs scores sur le suivi 2D longue distance et le suivi 3D dense dans CVO et Kubric3D respectivement, avec une vitesse d'exécution bien supérieure à celle des autres méthodes. Les choix de conception de DELTA, tels que la représentation de profondeur logarithmique, l'attention spatiale et le sur-échantillonneur basé sur l'attention, améliorent considérablement sa précision et son efficacité dans divers scénarios de suivi.
DELTA est une méthode efficace capable de suivre chaque pixel dans les images vidéo, atteignant une précision et un temps d'exécution plus rapides dans le suivi dense 2D et 3D. La méthode peut cependant rencontrer des difficultés avec les points soumis à de longues occlusions, et ses meilleures performances sont obtenues sur des vidéos courtes, avec un nombre d'images inférieur à quelques centaines. La précision du suivi 3D de DELTA dépend de la précision et de la stabilité temporelle de l'estimation de profondeur monoculaire utilisée. On s'attend à ce que les progrès de la recherche sur l'estimation de profondeur monoculaire améliorent encore les performances de cette méthode.
Accès au projet : https://snap-research.github.io/DELTA/
Points clés :
🌟 DELTA est une nouvelle méthode conçue pour le suivi efficace de chaque pixel dans les vidéos monoculaires.
⚡ DELTA obtient des résultats de pointe sur les ensembles de données CVO et Kubric3D, avec une vitesse 8 fois supérieure aux méthodes traditionnelles.
🔍 La méthode peut rencontrer des difficultés avec les points soumis à de longues occlusions, mais elle excelle sur les courtes vidéos.