多模态模型的画布框架Sketchpad：提升多模态模型数学能力

AIbase

发布于AI新闻资讯 · 1 分钟阅读 · Jun 17, 2024

187

人类在进行推理时常常会进行绘图，比如在解决几何问题时画辅助线，在地图上进行标记和圈出，在理清思路时进行草图。然而，目前的多模式语言模型（LM）缺乏这样的能力。在最新的研究中，研究人员引入了 “Sketchpad” 的概念，为多模式 LM 提供了视觉画板和绘图工具，使其能够进行视觉推理。

产品入口：https://top.aibase.com/tool/visual-sketchpad

运作机制:Sketchpad 使 GPT-4能够生成中间草图来推理任务。给定视觉输入和查询，例如证明三角形的角等于180°，画板使模型能够绘制有助于解决几何问题的辅助线。对于计算机视觉问题，Sketchpad 可以使用视觉专家来绘制草图并促进视觉推理。例如，使用“接地 DINO”绘制边界框，或使用“分割任何内容”绘制蒙版。

与以往使用文本到图像模型使 LM 能够绘图的工作不同，Sketchpad 使 LM 能够使用线条、框、标记等进行绘图，这更接近于人类的素描，更方便推理。此外，Sketchpad 还可以在绘图过程中使用专业视觉模型，比如使用对象检测模型绘制边界框，使用分割模型绘制蒙版，以进一步增强视觉感知和推理能力。

实验结果显示，Sketchpad 显著提高了多模态大语言模型在数学任务（包括几何、函数、图形、国际象棋）和复杂的视觉推理任务上的表现。与没有绘图的强大基础模型相比，Sketchpad 使得 LM 的性能平均提升了12.7% 在数学任务和8.6% 在视觉任务。带有 Sketchpad 的 GPT-4o 在所有任务上均创下了新的技术水平，包括 V*Bench(80.3%)、BLINK 空间推理(83.9%)和视觉对应(80.8%)。

这项研究的成果意味着，通过引入视觉画板和绘图工具，多模式 LM 在处理复杂的推理任务时能够更加接近人类的思维方式，提升了其在数学和视觉推理领域的表现。这一突破有望在语言模型和视觉模型的发展中发挥重要作用，为人工智能技术的发展开辟了新的可能性。

AI头条

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

马蜂窝“AI路书”全面开放，AI旅行助手再添实用功能

马蜂窝推出"AI路书"等智能旅行工具，全面升级出境自由行体验。"AI路书"采用"主动提问-需求校准-精准生成"模式，基于海量数据生成个性化行程方案。同时上线三大实用功能：AI代订日本餐厅、多语种实时翻译和菜单拍照识图，解决境外沟通难题。AI旅行助手"AI小蚂"支持7种语言实时翻译，还能通过截图自动完成餐厅预订。这些创新功能覆盖从行程规划到目的地服务的全链路，大幅提升旅行便利性。

2025年7月11号 16:13

1.0k

AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

【AI日报速览】1.智谱推出免费AI Slides，基于GLM模型快速生成专业PPT；2.可灵AI发布可图2.1，图像生成支持180种风格；3.NVIDIA推出DiffusionRenderer，实现视频转3D场景编辑；4.墨刀AI上线30秒生成可编辑原型功能；5.Higgsfield Soul ID用10张照片生成虚拟形象；6.谷歌开源GenAI Processors构建AI工作流；7.谷歌Veo3新增图转视频功能；8.Mistral AI发布专注代码生成的Devstral2507系列模型。

2025年7月11号 15:43

900

谷歌DeepMind开源GenAI Processors：一键构建实时AI工作流

谷歌DeepMind开源Python库"GenAI Processors"，助力开发者构建高效生成式AI工作流。该库支持多模态数据异步处理，优化Gemini API应用开发，显著降低实时应用延迟。核心功能包括模块化Processor接口、流式API设计及并发优化，可快速构建智能助手等实时应用。目前仅支持Python，但开放社区贡献，未来计划扩展功能覆盖更多场景。这一开源工具将加速生成式AI生态发展，特别适合低延迟的多模态交互应用开发。

2025年7月11号 15:40

1.9k

Manus AI官网及社交媒体现变动，中国用户或受影响

通用AI公司Manus调整中国业务，裁员并将核心技术团队迁往新加坡。中国区原有约120名员工，公司称此举是为提升运营效率、专注核心业务。官网显示"地区不可用"，取代此前"中文版开发中"提示，官方微博和小红书账号内容也已清空，显示其中国市场策略发生重大转变。

2025年7月11号 15:39

940

墨刀AI重磅上线：输入想法30秒生成高保真、可编辑原型

墨刀AI推出30秒快速原型生成功能，支持多终端适配和对话优化。用户可通过文本、草图等多种输入方式生成高保真可编辑原型，并支持多轮对话调整。AI能智能解析上传的草图、线框图等，自动生成界面。提供双模式编辑、自动文档生成和代码联动功能，覆盖电商、社交等多场景需求，显著降低原型制作门槛，提升产品设计效率。

2025年7月11号 15:34

1.4k

Mistral AI 发布 Devstral2507:为代码中心语言建模而生

Mistral AI推出Devstral2507系列两款AI模型：开源的Devstral Small1.1（240亿参数，SWE-Bench得分53.6%）和企业版Devstral Medium2507（得分61.6%）。Small1.1支持128k上下文窗口和本地部署，Medium2507性能超越部分商业模型。两者均针对代码推理、程序合成优化，支持与代理框架集成，分别适用于本地开发和企业级应用，提供从实验到生产的完整解决方案。

2025年7月11号 15:27

1.2k

5分钟生成专业PPT！智谱AI Slides火爆上线，GLM-Experimental带你体验未来办公

智谱AI推出革命性PPT生成工具AI Slides，基于最新GLM-Experimental模型开发。用户只需输入主题或上传文档，即可自动生成专业级PPT，包含智能排版、图表设计和视觉优化。该工具适用于商业报告、学术演示等场景，目前完全免费开放体验。社交媒体反馈显示其生成效果媲美专业设计，显著提升办公效率。用户可通过智谱清言官网抢先体验这一智能办公新功能。

2025年7月11号 15:05

1.3k

AWS 在 AI 竞争中加码基础设施，SageMaker 平台迎来重大升级

AWS对SageMaker平台进行重大升级，新增模型可观察性功能和本地IDE连接能力。升级后的SageMaker HyperPod可监控模型训练各环节性能，并支持本地开发环境无缝对接云端。平台还优化了GPU集群管理，实现训练与推理任务的资源灵活调度。AWS通过持续完善AI基础设施，强化其在企业级AI市场的竞争力。

2025年7月11号 14:00

770

马斯克的新AI聊天机器人Grok 4：是追求真理还是个人观点的代言？

马斯克旗下xAI发布Grok4 AI聊天机器人，标榜"追求真理"却引发争议。测试显示该AI在敏感话题上常引用马斯克个人社交媒体观点，如巴以冲突、移民政策等。此前Grok曾因反犹言论被迫修改系统，暴露出将AI与创始人观点绑定的风险。虽然Grok4在部分测试中超越竞争对手，但频繁失误和缺乏透明度（未发布系统卡）可能影响其商业化前景。目前xAI正推动300美元/月的订阅服务和企业API应用。

2025年7月11号 10:40

840

智谱上线了类似Manus的PPT生成功能AI Slides，免费使用无限制

智谱推出免费AI PPT生成工具"AI Slides"，基于GLM-Experimental模型，用户只需输入主题或文档即可自动生成结构清晰、排版专业的演示文稿。该功能支持数据可视化呈现，突出关键信息，大幅提升制作效率。目前可在chat.z.ai平台体验，适用于商务汇报和学术展示等多种场景。

2025年7月11号 9:42

2.6k

AI开源&商用产品

AI产品提交

模型库

MCP服务端

MCP客户端

MCP服务调试

案例教程

AI热门资讯

今日AI热点

多模态模型的画布框架Sketchpad：提升多模态模型数学能力

AIbase

本文来自AIbase日报

相关AI新闻推荐

马蜂窝“AI路书”全面开放，AI旅行助手再添实用功能

AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

谷歌DeepMind开源GenAI Processors：一键构建实时AI工作流

Manus AI官网及社交媒体现变动，中国用户或受影响

墨刀AI重磅上线：输入想法30秒生成高保真、可编辑原型

Mistral AI 发布 Devstral2507:为代码中心语言建模而生

5分钟生成专业PPT！智谱AI Slides火爆上线，GLM-Experimental带你体验未来办公

AWS 在 AI 竞争中加码基础设施，SageMaker 平台迎来重大升级

马斯克的新AI聊天机器人Grok 4：是追求真理还是个人观点的代言？

智谱上线了类似Manus的PPT生成功能AI Slides，免费使用无限制

AI开源&商用产品

AI产品提交

模型库

MCP服务端

MCP客户端

MCP服务调试

案例教程

AI热门资讯

今日AI热点

多模态模型的画布框架Sketchpad：提升多模态模型数学能力

AIbase

本文来自AIbase日报

相关AI新闻推荐

马蜂窝“AI路书”全面开放，AI旅行助手再添实用功能

AI日报：智谱上线PPT生成功能AI Slides；可灵 AI 发布可图2.1模型

谷歌DeepMind开源GenAI Processors：一键构建实时AI工作流

Manus AI官网及社交媒体现变动，中国用户或受影响

墨刀AI重磅上线：输入想法30秒生成高保真、可编辑原型

Mistral AI 发布 Devstral2507:为代码中心语言建模而生

5分钟生成专业PPT！智谱AI Slides火爆上线，GLM-Experimental带你体验未来办公

​AWS 在 AI 竞争中加码基础设施，SageMaker 平台迎来重大升级

马斯克的新AI聊天机器人Grok 4：是追求真理还是个人观点的代言？

智谱上线了类似Manus的PPT生成功能AI Slides，免费使用无限制

AWS 在 AI 竞争中加码基础设施，SageMaker 平台迎来重大升级