Dans le domaine de l'analyse vidéo, la persistance des objets est un indice crucial pour la compréhension humaine, car elle permet de percevoir la présence d'un objet même lorsqu'il est complètement occulté. Cependant, la plupart des méthodes actuelles de segmentation d'objets se concentrent uniquement sur les objets visibles (modaux), négligeant le traitement des objets non modaux (visibles + invisibles).

Pour pallier ce problème, les chercheurs ont proposé une méthode en deux étapes basée sur une diffusion a priori, Diffusion-Vas, visant à améliorer la segmentation non modale et le remplissage de contenu vidéo. Elle permet de suivre une cible spécifique dans une vidéo, puis d'utiliser un modèle de diffusion pour compléter les parties occultées.

image.png

La première étape de cette méthode consiste à générer un masque non modal de l'objet. Les chercheurs infèrent l'occultation des limites de l'objet en combinant la séquence de masques visibles avec une pseudo-carte de profondeur. Cette pseudo-carte de profondeur est obtenue par estimation de profondeur monoculaire à partir de la séquence vidéo RGB. L'objectif de cette étape est d'identifier les parties de l'objet potentiellement occultées dans la scène afin d'étendre le contour complet de l'objet.

Sur la base du masque non modal généré à la première étape, la deuxième étape se charge du remplissage de contenu des zones occultées. L'équipe de recherche utilise le contenu RGB modal et un modèle de génération conditionnelle pour combler les zones occultées, générant ainsi un contenu RGB non modal complet. L'ensemble du processus utilise un cadre de diffusion latente conditionnelle avec un réseau 3D UNet comme architecture principale, garantissant ainsi une haute fidélité des résultats générés.

Pour valider son efficacité, l'équipe de recherche a effectué des tests de référence sur quatre ensembles de données. Les résultats montrent une amélioration de la précision de la segmentation non modale des zones occultées allant jusqu'à 13 % par rapport à plusieurs méthodes de pointe. En particulier, la méthode proposée a démontré une robustesse exceptionnelle dans le traitement des scènes complexes, faisant face efficacement aux mouvements importants de la caméra et aux occultations complètes fréquentes.

Cette recherche améliore non seulement la précision de l'analyse vidéo, mais offre également un nouveau point de vue sur la compréhension de l'existence des objets dans des scènes complexes. À l'avenir, cette technologie pourrait être appliquée à de nombreux domaines, tels que la conduite autonome et l'analyse de vidéos de surveillance.

Projet : https://diffusion-vas.github.io/

Points clés :

🌟 Cette étude propose une nouvelle méthode permettant la segmentation non modale et le remplissage de contenu vidéo grâce à une diffusion a priori.

🖼️ La méthode se déroule en deux étapes : génération d'un masque non modal, puis remplissage du contenu des zones occultées.

📊 Dans plusieurs tests de référence, cette méthode a considérablement amélioré la précision de la segmentation non modale, particulièrement dans les scènes complexes.