Une récente étude de l'Université technique de Darmstadt en Allemagne révèle un phénomène troublant : même les modèles d'IA d'imagerie les plus avancés actuels commettent des erreurs flagrantes face à des tâches simples de raisonnement visuel. Ces résultats remettent en question les critères d'évaluation des capacités visuelles de l'IA.

L'équipe de recherche a utilisé les problèmes de Bongard, conçus par le scientifique russe Michail Bongard, comme outil de test. Ces énigmes visuelles se composent de 12 images simples, divisées en deux groupes, et demandent d'identifier la règle qui différencie ces deux groupes. Pour la plupart des humains, cette tâche de raisonnement abstrait n'est pas difficile, mais les performances des modèles d'IA sont surprenantes.

image.png

Même le modèle multi-modal GPT-4o, considéré comme l'un des plus avancés, n'a résolu que 21 énigmes sur 100. Les performances d'autres modèles d'IA connus tels que Claude, Gemini et LLaVA sont encore moins satisfaisantes. Ces modèles éprouvent des difficultés manifestes à identifier des lignes verticales et horizontales, ou à déterminer le sens d'une spirale, des concepts visuels pourtant fondamentaux.

Les chercheurs ont constaté que même en proposant des choix multiples, les performances des modèles d'IA ne s'amélioraient que légèrement. Seule une restriction stricte du nombre de réponses possibles a permis d'améliorer le taux de réussite de GPT-4 et Claude à 68 et 69 énigmes respectivement. En analysant quatre cas spécifiques, l'équipe de recherche a découvert que les systèmes d'IA pouvaient parfois rencontrer des problèmes au niveau de la perception visuelle de base, avant même d'atteindre les étapes de « réflexion » et de « raisonnement », mais les causes exactes restent difficiles à déterminer.

Cette étude soulève également des questions sur les critères d'évaluation des systèmes d'IA. L'équipe de recherche souligne : « Pourquoi les modèles de langage visuel obtiennent-ils d'excellents résultats sur les tests de référence établis, tout en rencontrant des difficultés avec les problèmes de Bongard, apparemment simples ? Quelle est la signification réelle de ces tests de référence pour l'évaluation de la capacité de raisonnement ? » Ces questions suggèrent qu'il est peut-être nécessaire de repenser le système d'évaluation actuel de l'IA afin de mesurer plus précisément ses capacités de raisonnement visuel.

Cette étude met non seulement en lumière les limites des technologies d'IA actuelles, mais indique également la voie à suivre pour le développement futur des capacités visuelles de l'IA. Elle nous rappelle que, tout en célébrant les progrès rapides de l'IA, nous devons également prendre conscience du fait que ses capacités cognitives de base restent à améliorer.