zh
红薯智语
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
红薯智语
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2024-11-18 07:58:19
.
AIbase
.
13.3k
Kimi推出数学推理模型k0-math:数学能力对标OpenAI o1系列
月之暗面Kimi智能助手宣布推出新一代数学推理模型k0-math。k0-math模型在多项数学基准能力测试中表现突出,其成绩在中考、高考、考研以及包含入门竞赛题的MATH等4个数学基准测试中超过了OpenAI o1系列的o1-mini和o1-preview模型。
2024-10-14 14:51:30
.
AIbase
.
12.4k
苹果研究团队发布新基准GSM-Symbolic:揭示大语言模型的数学推理短板!
最近,苹果公司的研究人员对大语言模型(LLM)的数学推理能力进行了深入研究,推出了一项名为 GSM-Symbolic 的新基准测试。这个新基准测试是在 GSM8K 的基础上发展的,后者主要用于评估基础数学能力。虽然许多 LLM 在 GSM8K 上的表现有所提升,但科学界对这些模型的推理能力仍然存有疑问,认为现有的评估指标可能无法全面反映它们的真实能力。研究发现,LLM 通常依赖于概率模式匹配,而非真正的逻辑推理,导致它们对输入的小变化非常敏感。在这项新研究中,研究人员使用符号模板生成
2024-10-12 14:59:01
.
AIbase
.
12.3k
苹果AI研究团队发现大模型推理短板 一句话就把OpenAI o1干废了
在人工智能的世界里,机器学习模型尤其是大型语言模型(LLMs)的推理能力一直是科学家们关注的焦点。最近,苹果公司的AI研究团队发表了一篇论文,题为《理解大型语言模型在数学推理上的局限性》,为我们揭开了这些模型在处理逻辑问题时的局限性。论文中,研究者们通过一个简单的数学问题来展示这一点。他们首先提出了一个关于奥利弗摘猕猴桃的问题:如下所示:奥利弗星期五摘了44颗猕猴桃。星期六他又摘了58颗猕猴桃。星期天他摘的猕猴桃数量是星期五的两倍。奥利弗一共有多
2024-07-19 16:36:43
.
AIbase
.
10.5k
DeepSeek开源DeepSeek-V2-Chat-0628模型 代码、数学推理能力提升
LMSYS组织的大模型竞技场—Chatbot Arena最新榜单显示,LMSYS Chatbot Arena的总排名11超越诸多开源模型如Llama3-70B、Qwen2-72B、Nemotron-4-340B、Gemma2-27B,位居全球开源模型榜首。DeepSeek-V2-0628,相较于0507版本,显著提升了在代码数学推理、指令跟随、角色扮演、JSON Output能力,特别是在难问题、代码、长问题和数学领域与GPT-4-Turbo-0409、Claude3Opus等领先模型并驾齐驱。DeepSeek-V2-0628在全球与国内模型评比中均显卓著,国内排名第二位,并已于2024年6月28日上线服务,提供性价比极高的API和网页端访问。