人类在进行推理时常常会进行绘图,比如在解决几何问题时画辅助线,在地图上进行标记和圈出,在理清思路时进行草图。然而,目前的多模式语言模型(LM)缺乏这样的能力。在最新的研究中,研究人员引入了 “Sketchpad” 的概念,为多模式 LM 提供了视觉画板和绘图工具,使其能够进行视觉推理。

image.png

产品入口:https://top.aibase.com/tool/visual-sketchpad

运作机制:Sketchpad 使 GPT-4能够生成中间草图来推理任务。给定视觉输入和查询,例如证明三角形的角等于180°,画板使模型能够绘制有助于解决几何问题的辅助线。对于计算机视觉问题,Sketchpad 可以使用视觉专家来绘制草图并促进视觉推理。例如,使用“接地 DINO”绘制边界框,或使用“分割任何内容”绘制蒙版。

与以往使用文本到图像模型使 LM 能够绘图的工作不同,Sketchpad 使 LM 能够使用线条、框、标记等进行绘图,这更接近于人类的素描,更方便推理。此外,Sketchpad 还可以在绘图过程中使用专业视觉模型,比如使用对象检测模型绘制边界框,使用分割模型绘制蒙版,以进一步增强视觉感知和推理能力。

实验结果显示,Sketchpad 显著提高了多模态大语言模型 在数学任务(包括几何、函数、图形、国际象棋)和复杂的视觉推理任务上的表现。与没有绘图的强大基础模型相比,Sketchpad 使得 LM 的性能平均提升了12.7% 在数学任务和8.6% 在视觉任务。带有 Sketchpad 的 GPT-4o 在所有任务上均创下了新的技术水平,包括 V*Bench(80.3%)、BLINK 空间推理(83.9%)和视觉对应(80.8%)。

这项研究的成果意味着,通过引入视觉画板和绘图工具,多模式 LM 在处理复杂的推理任务时能够更加接近人类的思维方式,提升了其在数学和视觉推理领域的表现。这一突破有望在语言模型和视觉模型的发展中发挥重要作用,为人工智能技术的发展开辟了新的可能性。