阿里推新 AI 基准测试 “PROCESSBENCH”，评估数学推理中的错误识别能力

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年12月15号 10:23

202

近日，阿里巴巴 Qwen 团队的研究人员推出了一个名为 “PROCESSBENCH” 的新基准测试，旨在衡量语言模型在数学推理中识别过程错误的能力。随着语言模型在复杂推理任务中取得显著进展，这一领域的研究者们发现，尽管模型表现出色，但在处理某些困难问题时依然面临挑战。因此，开发一种有效的监督方法显得尤为重要。

当前，针对语言模型的评估基准存在一些不足之处。一方面，一些问题集对于高级模型而言变得过于简单，另一方面，现有的评估方法往往只提供二元的正确性评估，而缺乏详细的错误注释。这一现象突显了亟需更全面的评估框架，以更深入地考察复杂语言模型的推理机制。

为了填补这一空白，研究人员设计了 “PROCESSBENCH”，该基准专注于识别数学推理中的错误步骤。它的设计原则包括问题难度、解决方案多样性和全面评估。基准针对比赛和奥林匹克级别的数学问题，利用多个开源语言模型生成展示不同解题方法的解决方案。PROCESSBENCH 共包含3400个经过多位人类专家精心标注的测试案例，确保数据质量和评估的可靠性。

在开发过程中，研究团队从四个知名数据集（GSM8K、MATH、OlympiadBench 和 Omni-MATH）收集数学问题，确保涵盖从小学到竞赛级别的广泛难度。他们利用开源模型生成了多达12种不同的解决方案，以增加解决方案的多样性。此外，为了统一解决步骤的格式，团队采用了重格式化方法，以确保逻辑上完整的逐步推理。

研究结果表明，现有的过程奖励模型在应对高难度问题时表现不佳，特别是在较简单的问题集上，提示驱动的评判模型表现更为突出。研究揭示了现有模型在评估数学推理时的局限性，特别是当模型通过错误的中间步骤达到正确答案时，难以准确判断。

PROCESSBENCH 作为评估语言模型识别数学推理错误能力的先锋基准，为未来的研究提供了重要的框架，推动了 AI 在推理过程中的理解和改进。

论文入口:https://github.com/QwenLM/ProcessBench?tab=readme-ov-file

代码:https://github.com/QwenLM/ProcessBench?tab=readme-ov-file

划重点:
🌟 研究团队推出的新基准 “PROCESSBENCH” 旨在评估语言模型识别数学推理中的错误能力。
📊 PROCESSBENCH 包含3400个测试案例，涵盖多种难度的数学问题，并经过专家精心标注。
🔍 研究发现，现有的过程奖励模型在高难度问题上表现不佳，亟需改进其错误识别策略。

苹果智能简体中文支持将于4月上线随iOS 18.4发布

苹果公司于今日凌晨通过官方网站发布消息，透露Apple智能功能即将迎来重大更新，支持语言范围显著扩大。此次新增支持的语言包括法语、德语、意大利语、葡萄牙语（巴西）、西班牙语、日语、韩语以及简体中文，同时还将推出新加坡与印度本地化英语版本。

阿里国际开源Ovis2系列多模态大语言模型共有六个版本

Ovis2 是阿里巴巴国际化团队提出的Ovis系列模型的最新版本。与前序1. 6 版本相比，Ovis2 在数据构造和训练方法上都有显著改进。它不仅强化了小规模模型的能力密度，还通过指令微调和偏好学习大幅提升了思维链（CoT）推理能力。此外，Ovis2 引入了视频和多图像处理能力，并增强了多语言能力和复杂场景下的OCR能力，显著提升了模型的实用性。

阿里巴巴股价飙升，背后原因竟与人工智能有关

阿里巴巴的股价在近期表现出色，持续攀升，吸引了投资者的广泛关注。这家知名的电子商务巨头上周发布了令人惊喜的财报，超出市场预期，进一步巩固了其在行业中的地位。公司不仅在营收上实现了增长，同时也表现出良好的盈利能力，显示出其强大的市场竞争力。值得注意的是，阿里巴巴宣布将与苹果公司在中国市场进行合作，支持 iPhone 的人工智能服务。这一消息无疑为其股价上涨注入了强心剂。双方的合作不仅将有助于推动阿里巴巴在 AI 领域的发展，还将提升其在消费者心目中

深推理模型崛起！Together AI融资3.05亿美元助推GPU需求

在 AI 行业，Together AI 最近宣布完成了一轮3.05亿美元的 B 轮融资，这一消息引起了广泛关注。该公司的崛起与其新推出的深度理模型 DeepSeek-R1密切相关。与最初的担忧相反，许行业专家认为，深度推理的进步并没有降低对基础设施的需求，反而在不断提升这一需求。图源备注：图片由AI生成，图片授权服务商Midjourney自2023年成立以来，Together AI 旨在简化企业对开源大型语言模型（LLM）的使用。随着时间的推移，该公司逐步扩展其平台，提供了一个名为 “Together 平台” 的解决方案，支持在虚

AI新闻资讯

阿里推新 AI 基准测试 “PROCESSBENCH”，评估数学推理中的错误识别能力

AIbase基地

相关AI新闻推荐

苹果智能简体中文支持将于4月上线 随iOS 18.4发布

阿里国际开源Ovis2系列多模态大语言模型 共有六个版本

阿里巴巴股价飙升，背后原因竟与人工智能有关

深推理模型崛起！Together AI融资3.05亿美元助推GPU需求

苹果智能简体中文支持将于4月上线随iOS 18.4发布

阿里国际开源Ovis2系列多模态大语言模型共有六个版本