Menschen zeichnen oft beim Denken, z. B. Hilfslinien beim Lösen geometrischer Probleme, Markierungen und Kreise auf Karten oder Skizzen, um den Gedankengang zu klären. Aktuelle multimodalen Sprachmodelle (LM) verfügen jedoch nicht über diese Fähigkeit. In einer aktuellen Studie führten Forscher das Konzept „Sketchpad“ ein, das multimodalen LMs eine visuelle Zeichenfläche und Zeichenwerkzeuge bietet, um visuelles Denken zu ermöglichen.
Produktzugang: https://top.aibase.com/tool/visual-sketchpad
Im Gegensatz zu früheren Arbeiten, bei denen Text-zu-Bild-Modelle verwendet wurden, um LMs das Zeichnen zu ermöglichen, ermöglicht Sketchpad LMs das Zeichnen mit Linien, Kästen, Markierungen usw., was dem menschlichen Skizzieren ähnlicher ist und das Denken erleichtert. Darüber hinaus kann Sketchpad während des Zeichenprozesses professionelle visuelle Modelle verwenden, z. B. Objekterkennungsmodelle zum Zeichnen von Bounding Boxes und Segmentierungsmodelle zum Zeichnen von Masken, um die visuelle Wahrnehmung und die Denkfähigkeit weiter zu verbessern.
Die Ergebnisse zeigen, dass Sketchpad die Leistung multimodaler großer Sprachmodelle bei mathematischen Aufgaben (einschließlich Geometrie, Funktionen, Diagramme, Schach) und komplexen visuellen Denkaufgaben deutlich verbessert. Im Vergleich zu leistungsstarken Basismodellen ohne Zeichenfunktion verbesserte Sketchpad die Leistung der LMs um durchschnittlich 12,7 % bei mathematischen Aufgaben und um 8,6 % bei visuellen Aufgaben. GPT-4o mit Sketchpad erzielte bei allen Aufgaben neue Bestleistungen, darunter V*Bench (80,3 %), BLINK räumliches Denken (83,9 %) und visuelle Korrespondenz (80,8 %).
Die Ergebnisse dieser Studie bedeuten, dass durch die Einführung einer visuellen Zeichenfläche und von Zeichenwerkzeugen multimodale LMs bei der Bearbeitung komplexer Denkaufgaben der menschlichen Denkweise näher kommen und ihre Leistung in den Bereichen Mathematik und visuelles Denken verbessert wird. Dieser Durchbruch dürfte eine wichtige Rolle in der Entwicklung von Sprach- und visuellen Modellen spielen und neue Möglichkeiten für die Entwicklung von KI-Technologien eröffnen.