Dans le domaine de la vision par IA, la localisation d'objets a toujours été un défi majeur. Les algorithmes traditionnels ressemblent à des « myopes », capables seulement de cerner grossièrement les objets avec des « cadres », sans percevoir les détails. C'est comme si vous décriviez une personne à un ami en ne donnant que sa taille et sa corpulence approximatives ; il serait difficile pour votre ami de la retrouver !

Pour résoudre ce problème, une équipe de chercheurs de l'Illinois Institute of Technology, du Cisco Research et de l'University of Central Florida a développé un nouveau cadre de localisation visuelle appelé SegVG, qui promet de débarrasser l'IA de sa « myopie » !

Le secret de SegVG réside dans les détails au niveau du « pixel » ! Les algorithmes traditionnels n'utilisent que les informations de la boîte englobante pour entraîner l'IA, ce qui revient à ne lui montrer qu'une ombre floue. SegVG, quant à lui, convertit les informations de la boîte englobante en signaux de segmentation, comme si l'on équipait l'IA de « lunettes haute définition », lui permettant de voir chaque pixel de l'objet !

image.png

Plus précisément, SegVG utilise un « encodeur-décodeur multi-couches et multi-tâches ». Ce nom peut sembler complexe, mais vous pouvez le considérer comme un « microscope » extrêmement précis, contenant des requêtes pour la régression et plusieurs requêtes pour la segmentation. En termes simples, il utilise différents « objectifs » pour effectuer séparément les tâches de régression de la boîte englobante et de segmentation, observant l'objet à plusieurs reprises pour extraire des informations plus précises.

Plus impressionnant encore, SegVG introduit un « module d'alignement ternaire », qui équivaut à fournir à l'IA un « traducteur » pour résoudre les problèmes de « communication » entre les paramètres de pré-entraînement du modèle et les plongements de requête. Grâce à un mécanisme d'attention ternaire, ce « traducteur » peut « traduire » les requêtes, le texte et les caractéristiques visuelles sur la même longueur d'onde, permettant à l'IA de mieux comprendre les informations sur l'objet.

image.png

Quels sont les résultats de SegVG ? Les chercheurs ont mené des expériences sur cinq ensembles de données couramment utilisés, et les résultats montrent que SegVG surpasse de nombreux algorithmes traditionnels ! En particulier sur RefCOCO+ et RefCOCOg, deux ensembles de données connus pour leur difficulté, SegVG a obtenu des résultats révolutionnaires !

En plus de la localisation précise, SegVG peut également fournir un score de confiance pour les prédictions du modèle. En termes simples, l'IA vous indique le degré de confiance qu'elle a dans son jugement. Ceci est très important dans les applications réelles, par exemple, si vous souhaitez utiliser l'IA pour identifier des images médicales, si la confiance de l'IA est faible, vous devrez effectuer une vérification manuelle pour éviter les erreurs de diagnostic.

La publication en open source de SegVG est une excellente nouvelle pour le domaine de la vision par IA ! Nous pensons que de plus en plus de développeurs et de chercheurs rejoindront le mouvement SegVG pour faire progresser la technologie de la vision par IA.

Adresse de l'article : https://arxiv.org/pdf/2407.03200

Lien du code : https://github.com/WeitaiKang/SegVG/tree/main