Menschen zeichnen oft beim Denken, z. B. Hilfslinien beim Lösen geometrischer Probleme, Markierungen und Kreise auf Karten oder Skizzen, um den Gedankengang zu klären. Aktuelle multimodalen Sprachmodelle (LM) verfügen jedoch nicht über diese Fähigkeit. In einer aktuellen Studie führten Forscher das Konzept „Sketchpad“ ein, das multimodalen LMs eine visuelle Zeichenfläche und Zeichenwerkzeuge bietet, um visuelles Denken zu ermöglichen.

image.png

Produktzugang: https://top.aibase.com/tool/visual-sketchpad

Funktionsweise: Sketchpad ermöglicht es GPT-4, Zwischenzeichnungen zur Lösung von Aufgaben zu erstellen. Bei gegebener visueller Eingabe und Anfrage, z. B. dem Beweis, dass die Winkel eines Dreiecks 180° betragen, ermöglicht die Zeichenfläche dem Modell, Hilfslinien zu zeichnen, die beim Lösen geometrischer Probleme hilfreich sind. Bei Problemen im Bereich Computer Vision kann Sketchpad visuelle Experten verwenden, um Skizzen zu erstellen und das visuelle Denken zu fördern. Beispielsweise können mit „Grounding DINO“ Bounding Boxes oder mit „Segment Anything“ Masken gezeichnet werden.

Im Gegensatz zu früheren Arbeiten, bei denen Text-zu-Bild-Modelle verwendet wurden, um LMs das Zeichnen zu ermöglichen, ermöglicht Sketchpad LMs das Zeichnen mit Linien, Kästen, Markierungen usw., was dem menschlichen Skizzieren ähnlicher ist und das Denken erleichtert. Darüber hinaus kann Sketchpad während des Zeichenprozesses professionelle visuelle Modelle verwenden, z. B. Objekterkennungsmodelle zum Zeichnen von Bounding Boxes und Segmentierungsmodelle zum Zeichnen von Masken, um die visuelle Wahrnehmung und die Denkfähigkeit weiter zu verbessern.

Die Ergebnisse zeigen, dass Sketchpad die Leistung multimodaler großer Sprachmodelle bei mathematischen Aufgaben (einschließlich Geometrie, Funktionen, Diagramme, Schach) und komplexen visuellen Denkaufgaben deutlich verbessert. Im Vergleich zu leistungsstarken Basismodellen ohne Zeichenfunktion verbesserte Sketchpad die Leistung der LMs um durchschnittlich 12,7 % bei mathematischen Aufgaben und um 8,6 % bei visuellen Aufgaben. GPT-4o mit Sketchpad erzielte bei allen Aufgaben neue Bestleistungen, darunter V*Bench (80,3 %), BLINK räumliches Denken (83,9 %) und visuelle Korrespondenz (80,8 %).

Die Ergebnisse dieser Studie bedeuten, dass durch die Einführung einer visuellen Zeichenfläche und von Zeichenwerkzeugen multimodale LMs bei der Bearbeitung komplexer Denkaufgaben der menschlichen Denkweise näher kommen und ihre Leistung in den Bereichen Mathematik und visuelles Denken verbessert wird. Dieser Durchbruch dürfte eine wichtige Rolle in der Entwicklung von Sprach- und visuellen Modellen spielen und neue Möglichkeiten für die Entwicklung von KI-Technologien eröffnen.