Dans les tâches multimodales, les modèles linguistiques visuels (VLMs) jouent un rôle crucial, notamment dans la recherche d'images, la génération de légendes et le diagnostic médical. L'objectif de ces modèles est d'aligner les données visuelles et les données linguistiques pour un traitement de l'information plus efficace. Cependant, les VLMs actuels rencontrent encore des défis importants dans la compréhension de la négation.

image.png

La négation est essentielle dans de nombreuses applications, par exemple pour distinguer « une chambre sans fenêtre » d'« une chambre avec fenêtre ». Malgré les progrès significatifs des VLMs, les modèles existants affichent une baisse de performance considérable lorsqu'ils traitent des énoncés négatifs. Cette limitation est particulièrement importante dans les domaines à haut risque tels que la surveillance de sécurité et les soins de santé.

Les VLMs existants, tels que CLIP, utilisent un espace d'intégration partagé pour aligner les représentations visuelles et textuelles. Bien que ces modèles excellent dans des tâches telles que la recherche multimodale et la génération de légendes d'images, ils sont moins performants face aux phrases négatives. Ce problème provient d'un biais dans les données d'entraînement, principalement composées d'exemples affirmatifs, ce qui conduit les modèles à traiter les énoncés négatifs et affirmatifs comme synonymes. Par conséquent, les tests de référence actuels, tels que CREPE et CC-Neg, utilisent des exemples de modèles simples qui ne reflètent pas la richesse et la profondeur de la négation dans le langage naturel. Cela pose un défi majeur aux VLMs pour les applications de compréhension linguistique précise, comme les requêtes complexes sur des bases de données d'images médicales.

Pour résoudre ces problèmes, des chercheurs du MIT, de Google DeepMind et de l'Université d'Oxford ont proposé le framework NegBench, destiné à évaluer et à améliorer la capacité des VLMs à comprendre la négation. Ce framework évalue deux tâches fondamentales : la recherche avec négation (Retrieval-Neg), qui teste la capacité du modèle à récupérer des images en fonction de descriptions affirmatives et négatives ; et les questions à choix multiples avec négation (MCQ-Neg), qui évalue les performances du modèle dans la compréhension de nuances subtiles. NegBench utilise de vastes ensembles de données synthétiques, tels que CC12M-NegCap et CC12M-NegMCQ, contenant des millions de légendes couvrant un large éventail de scénarios négatifs, afin d'améliorer l'efficacité de l'entraînement et de l'évaluation des modèles.

image.png

En combinant des ensembles de données réels et synthétiques, NegBench surmonte efficacement les limitations des modèles existants, améliorant considérablement leurs performances et leurs capacités de généralisation. Les modèles affinés montrent une amélioration significative dans les tâches de recherche et de compréhension, notamment en ce qui concerne le traitement des requêtes négatives, avec une augmentation du taux de rappel de 10 %. Dans les tâches à choix multiples, la précision a augmenté jusqu'à 40 %, démontrant une capacité considérablement améliorée à distinguer entre des légendes affirmatives et négatives subtiles.

La présentation de NegBench comble une lacune essentielle dans la compréhension de la négation par les VLMs, ouvrant la voie à la construction de systèmes d'intelligence artificielle plus puissants, particulièrement importants dans des domaines clés tels que le diagnostic médical et la recherche de contenu sémantique.

Article : https://arxiv.org/abs/2501.09425

Code : https://github.com/m1k2zoo/negbench

Points clés :

🌟 Les chercheurs ont mis en évidence les lacunes des modèles linguistiques visuels dans la compréhension de la négation, principalement dues à un biais dans les données d'entraînement.

📈 Le framework NegBench, grâce à l'introduction d'exemples négatifs riches, améliore considérablement les performances des modèles dans les tâches de recherche et de compréhension.

🔍 Les modèles affinés présentent une amélioration significative de la précision et du rappel lors du traitement des requêtes négatives, ce qui contribue au progrès des systèmes d'intelligence artificielle.