Lorsqu'ils raisonnent, les humains utilisent souvent des dessins, comme tracer des lignes auxiliaires pour résoudre des problèmes de géométrie, annoter et encercler des éléments sur une carte, ou faire des croquis pour clarifier leur pensée. Cependant, les modèles linguistiques multimodaux (LLM) actuels manquent de cette capacité. Dans une récente étude, les chercheurs ont introduit le concept de « Sketchpad », fournissant aux LLM multimodaux un tableau visuel et des outils de dessin, leur permettant ainsi de raisonner visuellement.

image.png

Accès au produit : https://top.aibase.com/tool/visual-sketchpad

Mécanisme de fonctionnement : Sketchpad permet à GPT-4 de générer des croquis intermédiaires pour les tâches de raisonnement. Étant donné une entrée visuelle et une requête, par exemple prouver que la somme des angles d'un triangle est égale à 180°, le tableau permet au modèle de dessiner des lignes auxiliaires facilitant la résolution du problème de géométrie. Pour les problèmes de vision par ordinateur, Sketchpad peut utiliser des experts visuels pour dessiner des croquis et faciliter le raisonnement visuel. Par exemple, utiliser « Grounded DINO » pour dessiner des bounding boxes, ou « Segment Anything » pour dessiner des masques.

Contrairement aux travaux précédents qui utilisaient des modèles texte-image pour permettre aux LLM de dessiner, Sketchpad permet aux LLM de dessiner avec des lignes, des boîtes, des marques, etc., ce qui se rapproche davantage des croquis humains et facilite le raisonnement. De plus, Sketchpad peut utiliser des modèles de vision spécialisés pendant le processus de dessin, tels que l'utilisation de modèles de détection d'objets pour dessiner des bounding boxes et de modèles de segmentation pour dessiner des masques, afin d'améliorer encore les capacités de perception et de raisonnement visuels.

Les résultats expérimentaux montrent que Sketchpad améliore considérablement les performances des grands modèles linguistiques multimodaux sur les tâches mathématiques (y compris la géométrie, les fonctions, les graphiques, les échecs) et les tâches complexes de raisonnement visuel. Comparé aux modèles de base puissants sans dessin, Sketchpad a permis une amélioration moyenne des performances de 12,7 % sur les tâches mathématiques et de 8,6 % sur les tâches visuelles. GPT-4o avec Sketchpad a établi de nouveaux records sur toutes les tâches, notamment V*Bench (80,3 %), le raisonnement spatial BLINK (83,9 %) et la correspondance visuelle (80,8 %).

Les résultats de cette recherche signifient que l'introduction d'un tableau visuel et d'outils de dessin permet aux LLM multimodaux de se rapprocher davantage de la façon de penser humaine lorsqu'ils traitent des tâches de raisonnement complexes, améliorant ainsi leurs performances dans les domaines des mathématiques et du raisonnement visuel. Cette percée devrait jouer un rôle important dans le développement des modèles linguistiques et visuels, ouvrant de nouvelles possibilités pour le développement de l'intelligence artificielle.