Os humanos frequentemente criam desenhos ao raciocinar, como desenhar linhas auxiliares para resolver problemas de geometria, marcar e circular em mapas e esboçar para organizar ideias. No entanto, os modelos de linguagem multimodal (LM) atuais carecem dessa capacidade. Em pesquisas recentes, os pesquisadores introduziram o conceito de "Sketchpad", fornecendo aos LMs multimodais uma prancheta visual e ferramentas de desenho, permitindo-lhes realizar raciocínio visual.
Acesso ao produto: https://top.aibase.com/tool/visual-sketchpad
Diferentemente de trabalhos anteriores que usavam modelos de texto para imagem para permitir que os LMs desenhassem, o Sketchpad permite que os LMs desenhem usando linhas, caixas, marcadores etc., o que se aproxima mais dos esboços humanos e facilita o raciocínio. Além disso, o Sketchpad também pode usar modelos visuais profissionais durante o processo de desenho, como usar modelos de detecção de objetos para desenhar caixas delimitadoras e modelos de segmentação para desenhar máscaras, para melhorar ainda mais a percepção e o raciocínio visuais.
Os resultados experimentais mostram que o Sketchpad melhora significativamente o desempenho de grandes modelos de linguagem multimodal em tarefas matemáticas (incluindo geometria, funções, gráficos, xadrez) e tarefas complexas de raciocínio visual. Em comparação com modelos base poderosos sem desenho, o Sketchpad melhorou o desempenho do LM em uma média de 12,7% em tarefas matemáticas e 8,6% em tarefas visuais. O GPT-4o com Sketchpad estabeleceu novos patamares tecnológicos em todas as tarefas, incluindo V*Bench (80,3%), raciocínio espacial BLINK (83,9%) e correspondência visual (80,8%).
Os resultados desta pesquisa significam que, ao introduzir uma prancheta visual e ferramentas de desenho, os LMs multimodais podem se aproximar mais do modo de pensar humano ao lidar com tarefas complexas de raciocínio, melhorando seu desempenho em matemática e raciocínio visual. Essa inovação deve desempenhar um papel importante no desenvolvimento de modelos de linguagem e modelos visuais, abrindo novas possibilidades para o desenvolvimento da inteligência artificial.