Los humanos a menudo dibujan mientras razonan, como dibujar líneas auxiliares para resolver problemas de geometría, marcar y encerrar en mapas, o hacer bocetos para aclarar sus pensamientos. Sin embargo, los modelos lingüísticos multimodales (LM) actuales carecen de esta capacidad. En una investigación reciente, los investigadores introdujeron el concepto de "Sketchpad", proporcionando a los LM multimodales una pizarra visual y herramientas de dibujo para permitir el razonamiento visual.
Acceso al producto: https://top.aibase.com/tool/visual-sketchpad
A diferencia de trabajos anteriores que utilizaban modelos de texto a imagen para permitir que los LM dibujaran, Sketchpad permite a los LM dibujar usando líneas, cuadros, marcas, etc., lo que se asemeja más a los bocetos humanos y facilita el razonamiento. Además, Sketchpad puede utilizar modelos visuales especializados durante el proceso de dibujo, como utilizar modelos de detección de objetos para dibujar cuadros delimitadores y modelos de segmentación para dibujar máscaras, para mejorar aún más la percepción y el razonamiento visuales.
Los resultados experimentales muestran que Sketchpad mejora significativamente el rendimiento de los grandes modelos lingüísticos multimodales en tareas matemáticas (incluida geometría, funciones, gráficos, ajedrez) y tareas complejas de razonamiento visual. En comparación con los potentes modelos base sin dibujo, Sketchpad mejora el rendimiento de los LM en un 12,7% de media en tareas matemáticas y un 8,6% en tareas visuales. GPT-4o con Sketchpad establece nuevos estándares en todas las tareas, incluyendo V*Bench (80,3%), razonamiento espacial BLINK (83,9%) y correspondencia visual (80,8%).
Los resultados de esta investigación significan que, al introducir una pizarra visual y herramientas de dibujo, los LM multimodales pueden acercarse más al pensamiento humano al manejar tareas de razonamiento complejas, mejorando su rendimiento en matemáticas y razonamiento visual. Este avance podría desempeñar un papel importante en el desarrollo de modelos lingüísticos y visuales, abriendo nuevas posibilidades para el desarrollo de la inteligencia artificial.