Los humanos a menudo dibujan mientras razonan, como dibujar líneas auxiliares para resolver problemas de geometría, marcar y encerrar en mapas, o hacer bocetos para aclarar sus pensamientos. Sin embargo, los modelos lingüísticos multimodales (LM) actuales carecen de esta capacidad. En una investigación reciente, los investigadores introdujeron el concepto de "Sketchpad", proporcionando a los LM multimodales una pizarra visual y herramientas de dibujo para permitir el razonamiento visual.

image.png

Acceso al producto: https://top.aibase.com/tool/visual-sketchpad

Mecanismo de funcionamiento: Sketchpad permite que GPT-4 genere bocetos intermedios para tareas de razonamiento. Dada una entrada visual y una consulta, como demostrar que los ángulos de un triángulo suman 180°, la pizarra permite al modelo dibujar líneas auxiliares que ayudan a resolver el problema geométrico. Para problemas de visión artificial, Sketchpad puede utilizar expertos visuales para dibujar bocetos y facilitar el razonamiento visual. Por ejemplo, utilizar "DINO grounded" para dibujar cuadros delimitadores o "Segment Anything" para dibujar máscaras.

A diferencia de trabajos anteriores que utilizaban modelos de texto a imagen para permitir que los LM dibujaran, Sketchpad permite a los LM dibujar usando líneas, cuadros, marcas, etc., lo que se asemeja más a los bocetos humanos y facilita el razonamiento. Además, Sketchpad puede utilizar modelos visuales especializados durante el proceso de dibujo, como utilizar modelos de detección de objetos para dibujar cuadros delimitadores y modelos de segmentación para dibujar máscaras, para mejorar aún más la percepción y el razonamiento visuales.

Los resultados experimentales muestran que Sketchpad mejora significativamente el rendimiento de los grandes modelos lingüísticos multimodales en tareas matemáticas (incluida geometría, funciones, gráficos, ajedrez) y tareas complejas de razonamiento visual. En comparación con los potentes modelos base sin dibujo, Sketchpad mejora el rendimiento de los LM en un 12,7% de media en tareas matemáticas y un 8,6% en tareas visuales. GPT-4o con Sketchpad establece nuevos estándares en todas las tareas, incluyendo V*Bench (80,3%), razonamiento espacial BLINK (83,9%) y correspondencia visual (80,8%).

Los resultados de esta investigación significan que, al introducir una pizarra visual y herramientas de dibujo, los LM multimodales pueden acercarse más al pensamiento humano al manejar tareas de razonamiento complejas, mejorando su rendimiento en matemáticas y razonamiento visual. Este avance podría desempeñar un papel importante en el desarrollo de modelos lingüísticos y visuales, abriendo nuevas posibilidades para el desarrollo de la inteligencia artificial.