AI产品榜

AI产品榜

搜索全球AI产品动态

搜索全球AI信息，发现AI新机遇

新闻资讯
产品应用
变现案例
AI教程

类型 :

新闻资讯
产品应用
变现案例
AI教程

2024-12-15 10:23:35.AIbase

阿里推新 AI 基准测试 “PROCESSBENCH”，评估数学推理中的错误识别能力

近日，阿里巴巴 Qwen 团队的研究人员推出了一个名为 “PROCESSBENCH” 的新基准测试，旨在衡量语言模型在数学推理中识别过程错误的能力。随着语言模型在复杂推理任务中取得显著进展，这一领域的研究者们发现，尽管模型表现出色，但在处理某些困难问题时依然面临挑战。因此，开发一种有效的监督方法显得尤为重要。当前，针对语言模型的评估基准存在一些不足之处。一方面，一些问题集对于高级模型而言变得过于简单，另一方面，现有的评估方法往往只提供二元的正确性评估，而缺

阿里推新 AI 基准测试 “PROCESSBENCH”，评估数学推理中的错误识别能力

2024-11-29 09:47:51.AIbase

被虐哭！Epoch AI推出数学新基准FrontierMath 顶级AI模型解题数不超2%

在人工智能的浩瀚宇宙中，数学曾被视为机器智能最后的堡垒。如今，一个名为FrontierMath的全新基准测试横空出世，将AI的数学推理能力推向了前所未有的极限。Epoch AI携手60多位数学界顶级大脑，共同打造了这个堪称"数学奥林匹克"的AI挑战场。这不仅仅是一次技术测试，更是对人工智能数学智慧的终极拷问。想象一个充满了世界顶级数学家的实验室，他们精心设计出数百道超越常人想象的数学难题。这些问题横跨数论、实分析、代数几何和范畴论等最前沿的数学领域，复杂程度令人咋舌。

被虐哭！Epoch AI推出数学新基准FrontierMath 顶级AI模型解题数不超2%

2024-11-18 07:58:19.AIbase

Kimi推出数学推理模型k0-math：数学能力对标OpenAI o1系列

月之暗面Kimi智能助手宣布推出新一代数学推理模型k0-math。k0-math模型在多项数学基准能力测试中表现突出，其成绩在中考、高考、考研以及包含入门竞赛题的MATH等4个数学基准测试中超过了OpenAI o1系列的o1-mini和o1-preview模型。

Kimi推出数学推理模型k0-math：数学能力对标OpenAI o1系列

2024-10-14 14:51:30.AIbase

苹果研究团队发布新基准GSM-Symbolic：揭示大语言模型的数学推理短板！

最近，苹果公司的研究人员对大语言模型（LLM）的数学推理能力进行了深入研究，推出了一项名为 GSM-Symbolic 的新基准测试。这个新基准测试是在 GSM8K 的基础上发展的，后者主要用于评估基础数学能力。虽然许多 LLM 在 GSM8K 上的表现有所提升，但科学界对这些模型的推理能力仍然存有疑问，认为现有的评估指标可能无法全面反映它们的真实能力。研究发现，LLM 通常依赖于概率模式匹配，而非真正的逻辑推理，导致它们对输入的小变化非常敏感。在这项新研究中，研究人员使用符号模板生成

苹果研究团队发布新基准GSM-Symbolic：揭示大语言模型的数学推理短板！

2024-10-12 14:59:01.AIbase

苹果AI研究团队发现大模型推理短板一句话就把OpenAI o1干废了

在人工智能的世界里，机器学习模型尤其是大型语言模型（LLMs）的推理能力一直是科学家们关注的焦点。最近，苹果公司的AI研究团队发表了一篇论文，题为《理解大型语言模型在数学推理上的局限性》，为我们揭开了这些模型在处理逻辑问题时的局限性。论文中，研究者们通过一个简单的数学问题来展示这一点。他们首先提出了一个关于奥利弗摘猕猴桃的问题:如下所示:奥利弗星期五摘了44颗猕猴桃。星期六他又摘了58颗猕猴桃。星期天他摘的猕猴桃数量是星期五的两倍。奥利弗一共有多

苹果AI研究团队发现大模型推理短板一句话就把OpenAI o1干废了

2024-07-19 16:36:43.AIbase

DeepSeek开源DeepSeek-V2-Chat-0628模型代码、数学推理能力提升

LMSYS组织的大模型竞技场—Chatbot Arena最新榜单显示，LMSYS Chatbot Arena的总排名11超越诸多开源模型如Llama3-70B、Qwen2-72B、Nemotron-4-340B、Gemma2-27B，位居全球开源模型榜首。DeepSeek-V2-0628，相较于0507版本，显著提升了在代码数学推理、指令跟随、角色扮演、JSON Output能力，特别是在难问题、代码、长问题和数学领域与GPT-4-Turbo-0409、Claude3Opus等领先模型并驾齐驱。DeepSeek-V2-0628在全球与国内模型评比中均显卓著，国内排名第二位，并已于2024年6月28日上线服务，提供性价比极高的API和网页端访问。

DeepSeek开源DeepSeek-V2-Chat-0628模型代码、数学推理能力提升