Os humanos frequentemente criam desenhos ao raciocinar, como desenhar linhas auxiliares para resolver problemas de geometria, marcar e circular em mapas e esboçar para organizar ideias. No entanto, os modelos de linguagem multimodal (LM) atuais carecem dessa capacidade. Em pesquisas recentes, os pesquisadores introduziram o conceito de "Sketchpad", fornecendo aos LMs multimodais uma prancheta visual e ferramentas de desenho, permitindo-lhes realizar raciocínio visual.

image.png

Acesso ao produto: https://top.aibase.com/tool/visual-sketchpad

Mecanismo de funcionamento: O Sketchpad permite que o GPT-4 gere esboços intermediários para tarefas de raciocínio. Dada uma entrada visual e uma consulta, como provar que os ângulos de um triângulo somam 180°, a prancheta permite que o modelo desenhe linhas auxiliares que ajudam a resolver o problema de geometria. Para problemas de visão computacional, o Sketchpad pode usar especialistas visuais para desenhar esboços e promover o raciocínio visual. Por exemplo, usar "DINO terrestre" para desenhar caixas delimitadoras ou "segmentar qualquer coisa" para desenhar máscaras.

Diferentemente de trabalhos anteriores que usavam modelos de texto para imagem para permitir que os LMs desenhassem, o Sketchpad permite que os LMs desenhem usando linhas, caixas, marcadores etc., o que se aproxima mais dos esboços humanos e facilita o raciocínio. Além disso, o Sketchpad também pode usar modelos visuais profissionais durante o processo de desenho, como usar modelos de detecção de objetos para desenhar caixas delimitadoras e modelos de segmentação para desenhar máscaras, para melhorar ainda mais a percepção e o raciocínio visuais.

Os resultados experimentais mostram que o Sketchpad melhora significativamente o desempenho de grandes modelos de linguagem multimodal em tarefas matemáticas (incluindo geometria, funções, gráficos, xadrez) e tarefas complexas de raciocínio visual. Em comparação com modelos base poderosos sem desenho, o Sketchpad melhorou o desempenho do LM em uma média de 12,7% em tarefas matemáticas e 8,6% em tarefas visuais. O GPT-4o com Sketchpad estabeleceu novos patamares tecnológicos em todas as tarefas, incluindo V*Bench (80,3%), raciocínio espacial BLINK (83,9%) e correspondência visual (80,8%).

Os resultados desta pesquisa significam que, ao introduzir uma prancheta visual e ferramentas de desenho, os LMs multimodais podem se aproximar mais do modo de pensar humano ao lidar com tarefas complexas de raciocínio, melhorando seu desempenho em matemática e raciocínio visual. Essa inovação deve desempenhar um papel importante no desenvolvimento de modelos de linguagem e modelos visuais, abrindo novas possibilidades para o desenvolvimento da inteligência artificial.