阿里开源最新数学模型Qwen2-Math 数学能力秒杀GPT-4o

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Aug 9, 2024

362

近日，阿里云重磅推出了Qwen2-Math系列大型语言模型，这一专注于数学领域的AI新秀一经亮相就引发了业界的广泛关注。

作为Qwen2系列的最新成员，Qwen2-Math和Qwen2-Math-Instruct-1.5B/7B/72B模型在数学解题能力上展现出了令人瞩目的实力。据悉，这一系列模型不仅在多项数学基准测试中超越了现有的开源模型，更是在某些方面胜过了包括GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro和Llama-3.1-405B在内的知名闭源模型，堪称AI数学界的"黑马"。

Qwen2-Math的成功并非偶然。阿里云团队在过去一年里倾注了大量心血，致力于提升大型语言模型在算术和数学问题上的推理能力。这个系列模型的基础是Qwen2-1.5B/7B/72B，研发团队在此基础上，利用精心设计的数学专业语料库进行了深度预训练。这个独特的语料库涵盖了大规模高质量的数学网络文本、专业书籍、代码实例，以及海量的考试题目，甚至包含了由Qwen2自主生成的数学预训练数据。

特别值得一提的是Qwen2-Math-Instruct模型。这个基于Qwen2-Math-72B训练的数学专业奖励模型采用了创新的训练方法。研发团队巧妙地结合了密集的奖励信号和模型回答正确与否的二元信号，将这个组合信号作为监督信号，通过拒绝采样构建SFT（Supervised Fine-Tuning）数据，并在SFT之后的强化学习中应用了组相对策略优化(GRPO)技术。这种独特的训练方法极大地提升了模型的数学解题能力。

在实际应用中，Qwen2-Math-Instruct展现出了令人惊叹的表现。无论是在2024年的AIME（美国邀请赛数学考试）还是2023年的AMC(美国数学竞赛)，这个模型都在各种设置下表现出色，包括贪婪搜索(Greedy)、多数投票、风险最小化等策略。

更令人兴奋的是，Qwen2-Math在解决一些国际数学奥林匹克（IMO）级别的难题时也展现出了不俗的实力。通过对一系列测试案例的分析，研究人员发现Qwen2-Math不仅能够轻松应对简单的数学竞赛问题，在面对复杂难题时也能给出令人信服的解答思路。

然而，阿里云团队并未就此止步。他们透露，目前的Qwen2-Math系列仅支持英语，但他们已经在积极开发支持英语和中文的双语模型，并计划在不久的将来推出多语言版本。此外，团队还在持续优化模型，以进一步提升其解决更加复杂和具有挑战性的数学问题的能力。

Qwen2-Math的横空出世，无疑为AI在数学领域的应用开辟了新的可能性。它不仅将为教育行业带来革命性的变化，帮助学生更好地理解和掌握数学知识，还可能在科研、工程等需要复杂数学计算的领域发挥重要作用。

项目页：https://top.aibase.com/tool/qwen2-math

模型下载：https://huggingface.co/Qwen

跨国会议新利器！飞猫AI WiFi同声传译，打破语言和网络障碍

飞猫凭借20多年通信技术积累，推出AI WiFi同声传译设备，有效解决跨国科技合作中的网络不稳定和语言障碍问题。该设备能实时翻译外籍专家发言，改善因信号卡顿和翻译延迟导致的沟通效率低下，为全球化研发协作提供技术支持。

小模型训练效率狂飙100倍！Thinking Machine推“在线策略蒸馏”，OpenAI前CTO亲自点赞

Thinking Machine团队推出在线策略蒸馏训练法，让小模型在特定任务上训练效率提升50-100倍。该方法融合强化学习与监督学习，解决传统AI训练中强化学习低效、监督学习不灵活的难题，打造"AI教练"新模式。成果获OpenAI前CTO转发，引发业界高度关注。

AI新闻资讯

最新AI日报

AI 商用·开源产品库

AI 产品排行榜

AI产品提交

AI工具导航

模型库

大模型排行榜

模型供应商

模型服务提交

大模型选型对比

大模型费用计算器

大模型竞技场

MCP服务端

MCP客户端

MCP教程与实践

MCP排行榜

MCP服务提交

MCP实验场

MCP服务调试器

GEO 大模型推荐优化

GEO排名查询工具

模型个人电脑配置检测器

数据集合

智能文档识别解析

阿里开源最新数学模型Qwen2-Math 数学能力秒杀GPT-4o

AIbase基地

本文来自AIbase日报

相关AI新闻推荐

英伟达开源 OmniVinci 全模态理解模型，训练数据仅为 1/6

蚂蚁百灵大模型团队开源Ring-flash-linear-2.0-128K，混合注意力+MoE架构重塑长文本编程效率

Hailuo2.3AI视频生成模型上线Replicate平台，带来逼真物理与电影级特效

英伟达推出全模态理解模型 OmniVinci，刷新 SOTA 高出19.05分

跨国会议新利器！飞猫AI WiFi同声传译，打破语言和网络障碍

小模型训练效率狂飙100倍！Thinking Machine推“在线策略蒸馏”，OpenAI前CTO亲自点赞

Tahoe Bio重磅发布Tahoe-x1模型，AI“解码”生命语言，癌症研究迎来计算效率革命

DeepSeek 模型在港大美股交易竞赛中夺冠，年化回报率10.61% 远超 GPT、纳斯达克基准

Fitbit推出Gemini健康教练：你的AI私人健身+睡眠顾问来了，安卓用户明日可抢先体验

MiniMax推M2推理大模型：2300亿参数、100 token/s，专为智能Agent而生

AI新闻资讯

最新AI日报

AI 商用·开源产品库

AI 产品排行榜

AI产品提交

AI工具导航

模型库

大模型排行榜

模型供应商

模型服务提交

大模型选型对比

大模型费用计算器

大模型竞技场

MCP服务端

MCP客户端

MCP教程与实践

MCP排行榜

MCP服务提交

MCP实验场

MCP服务调试器

GEO 大模型推荐优化

GEO排名查询工具

模型个人电脑配置检测器

数据集合

智能文档识别解析

阿里开源最新数学模型Qwen2-Math 数学能力秒杀GPT-4o

AIbase基地

本文来自AIbase日报

相关AI新闻推荐

​英伟达开源 OmniVinci 全模态理解模型，训练数据仅为 1/6

蚂蚁百灵大模型团队开源Ring-flash-linear-2.0-128K，混合注意力+MoE架构重塑长文本编程效率

Hailuo2.3AI视频生成模型上线Replicate平台，带来逼真物理与电影级特效

英伟达推出全模态理解模型 OmniVinci，刷新 SOTA 高出19.05分

跨国会议新利器！飞猫AI WiFi同声传译，打破语言和网络障碍

小模型训练效率狂飙100倍！Thinking Machine推“在线策略蒸馏”，OpenAI前CTO亲自点赞

Tahoe Bio重磅发布Tahoe-x1模型，AI“解码”生命语言，癌症研究迎来计算效率革命

DeepSeek 模型在港大美股交易竞赛中夺冠，年化回报率10.61% 远超 GPT、纳斯达克基准

Fitbit推出Gemini健康教练：你的AI私人健身+睡眠顾问来了，安卓用户明日可抢先体验

MiniMax推M2推理大模型：2300亿参数、100 token/s，专为智能Agent而生

英伟达开源 OmniVinci 全模态理解模型，训练数据仅为 1/6