Vous avez probablement déjà entendu parler des modèles linguistiques visuels (VLMs), ces petits prodiges de l'IA capables non seulement de comprendre le texte, mais aussi de « voir » les images. Pourtant, la réalité est plus nuancée. Aujourd'hui, nous allons examiner de plus près leurs limites et voir s'ils perçoivent réellement les images comme les humains.

Tout d'abord, une petite explication sur ce que sont les VLMs. En termes simples, il s'agit de grands modèles linguistiques, tels que GPT-4o et Gemini-1.5Pro, qui excellent dans le traitement des images et du texte, obtenant même des scores élevés à de nombreux tests de compréhension visuelle. Mais ne vous laissez pas berner par ces scores : nous allons voir s'ils sont vraiment aussi performants qu'on le prétend.

Des chercheurs ont conçu un test appelé BlindTest, comprenant sept tâches incroyablement simples pour un humain. Par exemple, déterminer si deux cercles se chevauchent, si deux lignes se croisent ou compter le nombre de cercles dans le logo olympique. Ces tâches semblent faciles, même pour un enfant de maternelle, n'est-ce pas ? Et pourtant, les performances des VLMs sont loin d'être aussi impressionnantes.

Les résultats sont surprenants : le taux de précision moyen de ces modèles soi-disant avancés sur le BlindTest n'est que de 56,20 %, le meilleur, Sonnet-3.5, atteignant seulement 73,77 %. C'est comme un élève censé intégrer les meilleures universités qui échouerait à un problème de mathématiques de primaire.

image.png

Pourquoi cela ? Selon les chercheurs, les VLMs traiteraient les images comme un myope, incapable de discerner les détails. Ils peuvent percevoir les tendances générales d'une image, mais dès qu'il s'agit d'informations spatiales précises, comme la superposition ou l'intersection de deux formes, ils sont désemparés.

Par exemple, lorsque les chercheurs ont demandé aux VLMs de déterminer si deux cercles se chevauchaient, ils ont constaté que même si les cercles étaient aussi grands que des pastèques, les modèles n'arrivaient pas à répondre avec une précision de 100 %. De même, leur performance pour compter les anneaux du logo olympique était loin d'être satisfaisante.

image.png

Plus intéressant encore, les chercheurs ont découvert que ces VLMs semblent avoir une préférence particulière pour le chiffre 5 lors du comptage. Si le nombre de cercles du logo olympique dépasse 5, ils ont tendance à répondre « 5 », probablement parce qu'ils sont familiers avec les 5 anneaux du logo.

image.png

Voilà, après toutes ces explications, vous avez probablement une nouvelle perspective sur ces VLMs apparemment sophistiqués. En réalité, ils présentent encore de nombreuses limitations en matière de compréhension visuelle, et sont loin d'atteindre le niveau humain. Alors, la prochaine fois que vous entendrez dire que l'IA peut complètement remplacer l'homme, vous pourrez sourire.

Adresse de l'article : https://arxiv.org/pdf/2407.06581

Page du projet : https://vlmsareblind.github.io/