今天凌晨,阿里巴巴通义千问团队发布了Qwen2系列开源模型。该系列模型包括5个尺寸的预训练和指令微调模型:Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B。关键信息显示,这些模型的参数数量和性能较前一代 Qwen1.5有显著提升。
对于模型的多语言能力,Qwen2系列投入了大量精力增加数据集的数量和质量,覆盖英语和中文以外的27种其他语言。经过对比测试,大型模型(70B + 参数)在自然语言理解、编码、数学能力等方面表现出色,Qwen2-72B 模型更在性能和参数数量方面超越前一代。
Qwen2模型不仅在基础语言模型评估中展现出强大的能力,还在指令调优模型评估中获得令人瞩目的成绩。其多语言能力在 M-MMLU 和 MGSM 等基准测试中表现出众,展现出 Qwen2指令调优模型的强大潜力。
此次发布的 Qwen2系列模型标志着人工智能技术的新高度,为全球 AI 应用和商业化提供了更广阔的可能性。展望未来,Qwen2将进一步扩展模型规模和多模式能力,加速推动开源 AI 领域的发展。
模型信息
Qwen2系列包含5种尺寸的基础和指令调优型号,包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B、Qwen2-72B。我们在下表中说明了各型号的关键信息:
楷模 | Qwen2-0.5B | Qwen2-1.5B | Qwen2-7B | Qwen2-57B-A14B | Qwen2-72B |
---|---|---|---|---|---|
# 参数 | 0.49亿 | 1.54亿 | 7.07B | 57.41B | 72.71B |
# 非 Emb 参数 | 0.35亿 | 1.31B | 5.98亿 | 56.32亿 | 70.21B |
质量保证 | 真的 | 真的 | 真的 | 真的 | 真的 |
领带嵌入 | 真的 | 真的 | 错误的 | 错误的 | 错误的 |
上下文长度 | 3.2万 | 3.2万 | 128千 | 64千 | 128千 |
具体来说,之前在 Qwen1.5中,只有 Qwen1.5-32B 和 Qwen1.5-110B 采用了 Group Query Attention(GQA)。这次,我们针对所有模型大小都应用了 GQA,以便它们在模型推理中享受更快的速度和更少内存占用的好处。对于小模型,我们更喜欢应用 tying embedding,因为大型稀疏 embedding 占了模型总参数的很大一部分。
在上下文长度方面,所有基础语言模型均已在32K 个 token 的上下文长度数据上进行了预训练,我们在 PPL 评估中观察到高达128K 的令人满意的外推能力。但是,对于指令调整模型,我们并不满足于仅仅进行 PPL 评估;我们需要模型能够正确理解长上下文并完成任务。在表中,我们列出了指令调整模型的上下文长度能力,这些能力是通过对 Needle in a Haystack任务的评估来评估的。值得注意的是,当使用 YARN 进行增强时,Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 模型都表现出令人印象深刻的能力,可以处理高达128K 个 token 的上下文长度。
我们付出了巨大的努力来增加预训练和指令调整数据集的数量和质量,这些数据集涵盖了英语和中文以外的多种语言,以增强其多语言能力。尽管大型语言模型具有推广到其他语言的固有能力,但我们明确强调在我们的训练中加入了27种其他语言:
区域 | 语言 |
---|---|
西欧 | 德语, 法语, 西班牙语, 葡萄牙语, 意大利语, 荷兰语 |
东欧和中欧 | 俄语、捷克语、波兰语 |
中东 | 阿拉伯语、波斯语、希伯来语、土耳其语 |
东亚 | 日语、韩语 |
东南亚 | 越南语、泰语、印尼语、马来语、老挝语、缅甸语、宿务语、高棉语、他加禄语 |
南亚 | 印地语、孟加拉语、乌尔都语 |
此外,我们投入了大量精力来解决多语言评估中经常出现的代码转换问题。因此,我们的模型处理这种现象的能力显著提高。使用通常会引发跨语言代码转换的提示进行的评估证实,相关问题显著减少。
表现
对比测试结果显示,大规模模型(70B+参数)的性能相比Qwen1.5有大幅提升。本次测试以大规模模型Qwen2-72B为中心。在基础语言模型方面,我们对比了Qwen2-72B和当前最佳的开放模型在自然语言理解、知识获取、编程能力、数学能力、多语言能力等能力方面的性能。得益于精心挑选的数据集和优化的训练方法,Qwen2-72B的表现优于Llama-3-70B等领先模型,在参数数量较少的情况下,其性能甚至超过了上一代Qwen1.5-110B。
在进行大量大规模预训练之后,我们进行后训练,以进一步增强 Qwen 的智能,使其更接近人类。此过程进一步提高了模型在编码、数学、推理、指令遵循、多语言理解等领域的能力。此外,它使模型的输出与人类价值观保持一致,确保其有用、诚实且无害。我们的后训练阶段采用可扩展训练和最少人工注释的原则设计。具体而言,我们研究如何通过各种自动对齐策略获得高质量、可靠、多样化和创造性的演示数据和偏好数据,例如数学的拒绝抽样、编码和指令遵循的执行反馈、创意写作的反向翻译、角色扮演的可扩展监督等。至于训练,我们采用了监督微调、奖励模型训练和在线 DPO 训练的组合。我们还采用了一种新颖的在线合并优化器来最大限度地减少对齐税。这些共同努力大大提高了我们模型的能力和智能,如下表所示。
我们对 Qwen2-72B-Instruct 进行了全面评估,涵盖了各个领域的16个基准测试。Qwen2-72B-Instruct 在获得更好的能力和与人类价值观保持一致之间取得了平衡。具体来说,Qwen2-72B-Instruct 在所有基准测试中都明显优于 Qwen1.5-72B-Chat,并且与 Llama-3-70B-Instruct 相比也达到了具有竞争力的性能。
在较小的模型上,我们的 Qwen2模型也优于类似甚至更大尺寸的 SOTA 模型。与刚刚发布的 SOTA 模型相比,Qwen2-7B-Instruct 仍然在各个基准测试中表现出优势,特别是在编码和中文相关指标上表现出色。
强调
编码与数学
我们一直致力于提升 Qwen 的高级功能,特别是在编码和数学方面。在编码方面,我们成功整合了CodeQwen1.5的代码训练经验和数据,从而使 Qwen2-72B-Instruct 在各种编程语言方面取得了显著的改进。在数学方面,通过利用广泛且高质量的数据集,Qwen2-72B-Instruct 在解决数学问题方面体现出了更强的能力。
长上下文理解
在 Qwen2中,所有指令调整模型都在32k 长度上下文中进行了训练,并使用YARN或Dual Chunk Attention等技术推断到更长的上下文长度。
下图是我们在Needle in a Haystack上的测试结果,值得注意的是,Qwen2-72B-Instruct 能够完美处理128k 上下文中的信息提取任务,再加上其与生俱来的强大性能,在资源充足的情况下,它成为处理长文本任务的首选。
此外,值得注意的是该系列其他型号的令人印象深刻的功能:Qwen2-7B-Instruct 几乎完美地处理长达128k 的上下文,Qwen2-57B-A14B-Instruct 管理长达64k 的上下文,而该系列中的两个较小的型号支持32k 的上下文。
除了长上下文模型之外,我们还开源了一个代理解决方案,用于高效处理包含多达100万个标记的文档。有关更多详细信息,请参阅我们关于此主题的专门博客文章。
安全与责任
下表展示了大型模型针对四类多语言不安全查询(非法活动、欺诈、色情、隐私暴力)产生的有害响应占比。测试数据来自Jailbreak,并翻译成多种语言进行评估。我们发现 Llama-3无法有效处理多语言提示,因此未将其纳入比较范围。通过显著性检验(P_value),我们发现 Qwen2-72B-Instruct 模型在安全性方面的表现与 GPT-4相当,并且显著优于 Mistral-8x22B 模型。
语言 | 非法活动 | 欺诈罪 | 色情 | 隐私暴力 | ||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
GPT-4 | 米斯特拉尔-8x22B | Qwen2-72B-指导 | GPT-4 | 米斯特拉尔-8x22B | Qwen2-72B-指导 | GPT-4 | 米斯特拉尔-8x22B | Qwen2-72B-指导 | GPT-4 | 米斯特拉尔-8x22B | Qwen2-72B-指导 | |
中文 | 0% | 13% | 0% | 0% | 17% | 0% | 43% | 47% | 53% | 0% | 10% | 0% |
英文 | 0% | 7% | 0% | 0% | 23% | 0% | 37% | 67% | 63% | 0% | 27% | 3% |
应收账 | 0% | 13% | 0% | 0% | 7% | 0% | 15% | 26% | 15% | 3% | 13% | 0% |
西文 | 0% | 7% | 0% | 3% | 0% | 0% | 48% | 64% | 50% | 3% | 7% | 3% |
法国 | 0% | 3% | 0% | 3% | 3% | 7% | 3% | 19% | 7% | 0% | 27% | 0% |
柯 | 0% | 4% | 0% | 3% | 8% | 4% | 17% | 29% | 10% | 0% | 26% | 4% |
点 | 0% | 7% | 0% | 3% | 7% | 3% | 47% | 57% | 47% | 4% | 26% | 4% |
日 | 0% | 10% | 0% | 7% | 23% | 3% | 13% | 17% | 10% | 13% | 7% | 7% |
六 | 0% | 4% | 0% | 4% | 11% | 0% | 22% | 26% | 22% | 0% | 0% | 0% |
平均的 | 0% | 8% | 0% | 3% | 11% | 2% | 27% | 39% | 31% | 3% | 16% | 2% |
使用 Qwen2进行开发
目前所有模型均已在 Hugging Face 和 ModelScope 中发布,欢迎访问模型卡查看详细使用方法,并进一步了解每个模型的特性、性能等信息。
长期以来,有很多朋友支持着 Qwen 的发展,包括微调(Axolotl、Llama-Factory、Firefly、Swift、XTuner)、量化(AutoGPTQ、AutoAWQ、Neural Compressor)、部署(vLLM、SGL、SkyPilot、TensorRT-LLM、OpenVino、TGI)、API 平台(Together、Fireworks、OpenRouter)、本地运行(MLX、Llama.cpp、Ollama、LM Studio)、Agent 和 RAG 框架(LlamaIndex、CrewAI、OpenDevin)、评估(LMSys、OpenCompass、Open LLM Leaderboard)、模型训练(Dolphin、Openbuddy)等。关于如何将 Qwen2与第三方框架一起使用,请参考各自的文档以及我们的官方文档。
还有很多团队和个人为 Qwen 做出了贡献,我们并没有提及。我们衷心感谢他们的支持,并希望我们的合作能够促进开源 AI 社区的研究和发展。
执照
这次,我们将模型的许可改为不同的。Qwen2-72B 及其指令调优模型仍使用原有的 Qianwen License,而其他所有模型,包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B 和 Qwen2-57B-A14B,均转而采用Apache2.0!我们相信,我们模型对社区的进一步开放可以加速 Qwen2在全球的应用和商业化。
Qwen2的下一步是什么?
我们正在训练更大的 Qwen2模型,以进一步探索模型扩展以及我们最近的数据扩展。此外,我们将 Qwen2语言模型扩展为多模式,能够理解视觉和音频信息。在不久的将来,我们将继续开源新模型以加速开源 AI。敬请期待!
引用
我们即将发布 Qwen2的技术报告。欢迎引用!
@article{qwen2,
附录
基础语言模型评估
基础模型的评测主要关注自然语言理解、一般问答、编码、数学、科学知识、推理、多语言能力等模型性能。
评估的数据集包括:
英语任务:MMLU(5次)、MMLU-Pro(5次)、GPQA(5次)、Theorem QA(5次)、BBH(3次)、HellaSwag(10次)、Winogrande(5次)、TruthfulQA(0次)、ARC-C(25次)
编码任务:EvalPlus(0-shot)(HumanEval、MBPP、HumanEval+、MBPP+)、MultiPL-E(0-shot)(Python、C++、JAVA、PHP、TypeScript、C#、Bash、JavaScript)
数学任务:GSM8K (4次)、MATH (4次)
中文任务:C-Eval(5-shot)、CMMLU (5-shot)
多语言任务:多考试(M3Exam5次、IndoMMLU3次、ruMMLU5次、mMMLU5次)、多理解(BELEBELE5次、XCOPA5次、XWinograd5次、XStoryCloze0次、PAWS-X5次)、多数学(MGSM8次)、多翻译(Flores-1015次)
Qwen2-72B 性能
数据集 | DeepSeek-V2 | Mixtral-8x22B | 骆驼-3-70B | Qwen1.5-72B | Qwen1.5-110B | Qwen2-72B |
---|---|---|---|---|---|---|
建筑学 | 教育部 | 教育部 | 稠密 | 稠密 | 稠密 | 稠密 |
#已激活参数 | 21B | 39B | 70B | 72B | 110B | 72B |
#参数 | 236B | 140B | 70B | 72B | 110B | 72B |
英语 | ||||||
莫尔曼·卢 | 78.5 | 77.8 | 79.5 | 77.5 | 80.4 | 84.2 |
MMLU-专业版 | - | 49.5 | 52.8 | 45.8 | 49.4 | 55.6 |
质量保证 | - | 34.3 | 36.3 | 36.3 | 35.9 | 37.9 |
定理问答 | - | 35.9 | 32.3 | 29.3 | 34.9 | 43.1 |
百比黑 | 78.9 | 78.9 | 81.0 | 65.5 | 74.8 | 82.4 |
希拉斯瓦格 | 87.8 | 88.7 | 88.0 | 86.0 | 87.5 | 87.6 |
大窗户 | 84.8 | 85.0 | 85.3 | 83.0 | 83.5 | 85.1 |
ARC-C | 70.0 | 70.7 | 68.8 | 65.9 | 69.6 | 68.9 |
诚实问答 | 42.2 | 51.0 | 45.6 | 59.6 | 49.6 | 54.8 |
编码 | ||||||
人力评估 | 45.7 | 46.3 | 48.2 | 46.3 | 54.3 | 64.6 |
马来西亚公共服务局 | 73.9 | 71.7 | 70.4 | 66.9 | 70.9 | 76.9 |
评估 | 55.0 | 54.1 | 54.8 | 52.9 | 57.7 | 65.4 |
多种的 | 44.4 | 46.7 | 46.3 | 41.8 | 52.7 | 59.6 |
数学 | ||||||
GSM8K | 79.2 | 83.7 | 83.0 | 79.5 | 85.4 | 89.5 |
数学 | 43.6 | 41.7 | 42.5 | 34.1 | 49.6 | 51.1 |
中国人 | ||||||
C-评估 | 81.7 | 54.6 | 65.2 | 84.1 | 89.1 | 91.0 |
加拿大蒙特利尔大学 | 84.0 | 53.4 | 67.2 | 83.5 | 88.3 | 90.1 |
多种语言 | ||||||
多项考试 | 67.5 | 63.5 | 70.0 | 66.4 | 75.6 | 76.6 |
多方理解 | 77.0 | 77.7 | 79.9 | 78.2 | 78.2 | 80.7 |
多元数学 | 58.8 | 62.9 | 67.1 | 61.7 | 64.4 | 76.0 |
多翻译 | 36.0 | 23.3 | 38.0 | 35.6 | 36.2 | 37.8 |
Qwen2-57B-A14B
数据集 | 贾巴 | Mixtral-8x7B | 仪-1.5-34B | Qwen1.5-32B | Qwen2-57B-A14B |
---|---|---|---|---|---|
建筑学 | 教育部 | 教育部 | 稠密 | 稠密 | 教育部 |
#已激活参数 | 12B | 12B | 34B | 32B | 14B |
#参数 | 52B | 47B | 34B | 32B | 57B |
英语 | |||||
莫尔曼·卢 | 67.4 | 71.8 | 77.1 | 74.3 | 76.5 |
MMLU-专业版 | - | 41.0 | 48.3 | 44.0 | 43.0 |
质量保证 | - | 29.2 | - | 30.8 | 34.3 |
定理问答 | - | 23.2 | - | 28.8 | 33.5 |
百比黑 | 45.4 | 50.3 | 76.4 | 66.8 | 67.0 |
希拉斯瓦格 | 87.1 | 86.5 | 85.9 | 85.0 | 85.2 |
维诺格兰德 | 82.5 | 81.9 | 84.9 | 81.5 | 79.5 |
ARC-C | 64.4 | 66.0 | 65.6 | 63.6 | 64.1 |
诚实问答 | 46.4 | 51.1 | 53.9 | 57.4 | 57.7 |
编码 | |||||
人力评估 | 29.3 | 37.2 | 46.3 | 43.3 | 53.0 |
马来西亚公共服务局 | - | 63.9 | 65.5 | 64.2 | 71.9 |
评估 | - | 46.4 | 51.9 | 50.4 | 57.2 |
多种的 | - | 39.0 | 39.5 | 38.5 | 49.8 |
数学 | |||||
GSM8K | 59.9 | 62.5 | 82.7 | 76.8 | 80.7 |
数学 | - | 30.8 | 41.7 | 36.1 | 43.0 |
中国人 | |||||
C-评估 | - | - | - | 83.5 | 87.7 |
加拿大蒙特利尔大学 | - | - | 84.8 | 82.3 | 88.5 |
多种语言 | |||||
多项检查 | - | 56.1 | 58.3 | 61.6 | 65.5 |
多方理解 | - | 70.7 | 73.9 | 76.5 | 77.0 |
多元数学 | - | 45.0 | 49.3 | 56.1 | 62.3 |
多翻译 | - | 29.8 | 30.0 | 33.5 | 34.5 |
Qwen2-7B
数据集 | 米斯特拉尔-7B | 杰玛-7B | 骆驼-3-8B | Qwen1.5-7B | Qwen2-7B |
---|---|---|---|---|---|
# 参数 | 7.2B | 8.5亿 | 8.0B | 7.7B | 7.6B |
# 非 emb 参数 | 7.0B | 7.8亿 | 7.0B | 6.5亿 | 6.5亿 |
英语 | |||||
莫尔曼·卢 | 64.2 | 64.6 | 66.6 | 61.0 | 70.3 |
MMLU-专业版 | 30.9 | 33.7 | 35.4 | 29.9 | 40.0 |
质量保证 | 24.7 | 25.7 | 25.8 | 26.7 | 31.8 |
定理问答 | 19.2 | 21.5 | 22.1 | 14.2 | 31.1 |
百比黑 | 56.1 | 55.1 | 57.7 | 40.2 | 62.6 |
希拉斯瓦格 | 83.2 | 82.2 | 82.1 | 78.5 | 80.7 |
维诺格兰德 | 78.4 | 79.0 | 77.4 | 71.3 | 77.0 |
ARC-C | 60.0 | 61.1 | 59.3 | 54.2 | 60.6 |
诚实问答 | 42.2 | 44.8 | 44.0 | 51.1 | 54.2 |
编码 | |||||
人力评估 | 29.3 | 37.2 | 33.5 | 36.0 | 51.2 |
马来西亚公共服务局 | 51.1 | 50.6 | 53.9 | 51.6 | 65.9 |
评估 | 36.4 | 39.6 | 40.3 | 40.0 | 54.2 |
多种的 | 29.4 | 29.7 | 22.6 | 28.1 | 46.3 |
数学 | |||||
GSM8K | 52.2 | 46.4 | 56.0 | 62.5 | 79.9 |
数学 | 13.1 | 24.3 | 20.5 | 20.3 | 44.2 |
中国人 | |||||
C-评估 | 47.4 | 43.6 | 49.5 | 74.1 | 83.2 |
加拿大蒙特利尔大学 | - | - | 50.8 | 73.1 | 83.9 |
多种语言 | |||||
多项检查 | 47.1 | 42.7 | 52.3 | 47.7 | 59.2 |
多方理解 | 63.3 | 58.3 | 68.6 | 67.6 | 72.0 |
多元数学 | 26.3 | 39.1 | 36.3 | 37.3 | 57.5 |
多翻译 | 23.3 | 31.2 | 31.9 | 28.4 | 31.5 |
Qwen2-0.5B 和 Qwen2-1.5B
数据集 | 披-2 | 杰玛-2B | 最低每千次展示费用 | Qwen1.5-1.8B | Qwen2-0.5B | Qwen2-1.5B |
---|---|---|---|---|---|---|
#非 Emb 参数 | 2.5亿 | 2.0B | 2.4B | 1.3B | 0.35亿 | 1.3B |
莫尔曼·卢 | 52.7 | 42.3 | 53.5 | 46.8 | 45.4 | 56.5 |
MMLU-专业版 | - | 15.9 | - | - | 14.7 | 21.8 |
定理问答 | - | - | - | - | 8.9 | 15.0 |
人力评估 | 47.6 | 22.0 | 50.0 | 20.1 | 22.0 | 31.1 |
马来西亚公共服务局 | 55.0 | 29.2 | 47.3 | 18.0 | 22.0 | 37.4 |
GSM8K | 57.2 | 17.7 | 53.8 | 38.4 | 36.5 | 58.5 |
数学 | 3.5 | 11.8 | 10.2 | 10.1 | 10.7 | 21.7 |
百比黑 | 43.4 | 35.2 | 36.9 | 24.2 | 28.4 | 37.2 |
希拉斯瓦格 | 73.1 | 71.4 | 68.3 | 61.4 | 49.3 | 66.6 |
维诺格兰德 | 74.4 | 66.8 | - | 60.3 | 56.8 | 66.2 |
ARC-C | 61.1 | 48.5 | - | 37.9 | 31.5 | 43.9 |
诚实问答 | 44.5 | 33.1 | - | 39.4 | 39.7 | 45.9 |
C-评估 | 23.4 | 28.0 | 51.1 | 59.7 | 58.2 | 70.6 |
加拿大蒙特利尔大学 | 24.2 | - | 51.1 | 57.8 | 55.1 | 70.3 |
指令调整模型评估
Qwen2-72B-指导
数据集 | 骆驼-3-70B-指导 | Qwen1.5-72B-聊天 | Qwen2-72B-指导 |
---|---|---|---|
英语 | |||
莫尔曼·卢 | 82.0 | 75.6 | 82.3 |
MMLU-专业版 | 56.2 | 51.7 | 64.4 |
质量保证 | 41.9 | 39.4 | 42.4 |
定理问答 | 42.5 | 28.8 | 44.4 |
MT-Bench | 8.95 | 8.61 | 9.12 |
竞技场-困难 | 41.1 | 36.1 | 48.1 |
IFEval(提示严格访问) | 77.3 | 55.8 | 77.6 |
编码 | |||
人力评估 | 81.7 | 71.3 | 86.0 |
马来西亚公共服务局 | 82.3 | 71.9 | 80.2 |
多种的 | 63.4 | 48.1 | 69.2 |
评估 | 75.2 | 66.9 | 79.0 |
活码测试 | 29.3 | 17.9 | 35.7 |
数学 | |||
GSM8K | 93.0 | 82.7 | 91.1 |
数学 | 50.4 | 42.5 | 59.7 |
中国人 | |||
C-评估 | 61.6 | 76.1 | 83.8 |
AlignBench | 7.42 | 7.28 | 8.27 |
Qwen2-57B-A14B-指导
数据集 | Mixtral-8x7B-Instruct-v0.1 | Yi-1.5-34B-聊天 | Qwen1.5-32B-聊天 | Qwen2-57B-A14B-指导 |
---|---|---|---|---|
建筑学 | 教育部 | 稠密 | 稠密 | 教育部 |
#已激活参数 | 12B | 34B | 32B | 14B |
#参数 | 47B | 34B | 32B | 57B |
英语 | ||||
莫尔曼·卢 | 71.4 | 76.8 | 74.8 | 75.4 |
MMLU-专业版 | 43.3 | 52.3 | 46.4 | 52.8 |
质量保证 | - | - | 30.8 | 34.3 |
定理问答 | - | - | 30.9 | 33.1 |
MT-Bench | 8.30 | 8.50 | 8.30 | 8.55 |
编码 | ||||
人力评估 | 45.1 | 75.2 | 68.3 | 79.9 |
马来西亚公共服务局 | 59.5 | 74.6 | 67.9 | 70.9 |
多种的 | - | - | 50.7 | 66.4 |
评估 | 48.5 | - | 63.6 | 71.6 |
活码测试 | 12.3 | - | 15.2 | 25.5 |
数学 | ||||
GSM8K | 65.7 | 90.2 | 83.6 | 79.6 |
数学 | 30.7 | 50.1 | 42.4 | 49.1 |
中国人 | ||||
C-评估 | - | - | 76.7 | 80.5 |
AlignBench | 5.70 | 7.20 | 7.19 | 7.36 |
Qwen2-7B-指导
数据集 | 骆驼-3-8B-指导 | Yi-1.5-9B-聊天 | GLM-4-9B-聊天 | Qwen1.5-7B-聊天 | Qwen2-7B-指导 |
---|---|---|---|---|---|
英语 | |||||
莫尔曼·卢 | 68.4 | 69.5 | 72.4 | 59.5 | 70.5 |
MMLU-专业版 | 41.0 | - | - | 29.1 | 44.1 |
质量保证 | 34.2 | - | - | 27.8 | 25.3 |
定理问答 | 23.0 | - | - | 14.1 | 25.3 |
MT-Bench | 8.05 | 8.20 | 8.35 | 7.60 | 8.41 |
编码 | |||||
人道主义 | 62.2 | 66.5 | 71.8 | 46.3 | 79.9 |
马来西亚公共服务局 | 67.9 | - | - | 48.9 | 67.2 |
多种的 | 48.5 | - | - | 27.2 | 59.1 |
评估 | 60.9 | - | - | 44.8 | 70.3 |
活码测试 | 17.3 | - | - | 6.0 | 26.6 |
数学 | |||||
GSM8K | 79.6 | 84.8 | 79.6 | 60.3 | 82.3 |
数学 | 30.0 | 47.7 | 50.6 | 23.2 | 49.6 |
中国人 | |||||
C-评估 | 45.9 | - | 75.6 | 67.3 | 77.2 |
AlignBench | 6.20 | 6.90 | 7.01 | 6.20 | 7.21 |
Qwen2-0.5B-Instruct 和 Qwen2-1.5B-Instruct
数据集 | Qwen1.5-0.5B-聊天 | Qwen2-0.5B-指导 | Qwen1.5-1.8B-聊天 | Qwen2-1.5B-指导 |
---|---|---|---|---|
莫尔曼·卢 | 35.0 | 37.9 | 43.7 | 52.4 |
人力评估 | 9.1 | 17.1 | 25.0 | 37.8 |
GSM8K | 11.3 | 40.1 | 35.3 | 61.6 |
C-评估 | 37.2 | 45.2 | 55.3 | 63.8 |
IFEval(提示严格访问) | 14.6 | 20.0 | 16.8 | 29.0 |
指令调整模型的多语言能力
我们在几个跨语言开放基准以及人工评估中将 Qwen2指令调整模型与其他最近的 LLM 进行了比较。对于基准,我们在2个评估数据集上展示了结果:
- Okapi 的M-MMLU:多语言常识评估(我们用 ar、de、es、fr、it、nl、ru、uk、vi、zh 的子集进行评估)
- MGSM:对德语、英语、西班牙语、法语、日语、俄语、泰国语、中文和巴西语等语言进行数学评估
结果根据每个基准测试的语言平均得出,如下所示:
楷模 | M-MMLU(5次发射) | MGSM(0次射击,CoT) |
---|---|---|
专有法学硕士 | ||
GPT-4-0613 | 78.0 | 87.0 |
GPT-4-Turbo-0409 | 79.3 | 90.5 |
GPT-4o-0513 | 83.2 | 89.6 |
克劳德-3-作品-20240229 | 80.1 | 91.0 |
克劳德-3-十四行诗-20240229 | 71.0 | 85.6 |
开源法学硕士 | ||
command-r-plus-110b | 65.5 | 63.5 |
Qwen1.5-7B-聊天 | 50.0 | 37.0 |
Qwen1.5-32B-聊天 | 65.0 | 65.0 |
Qwen1.5-72B-聊天 | 68.4 | 71.7 |
Qwen2-7B-指导 | 60.0 | 57.0 |
Qwen2-57B-A14B-指导 | 68.0 | 74.0 |
Qwen2-72B-指导 | 78.0 | 86.6 |
对于人工评估,我们使用内部评估集将 Qwen2-72B-Instruct 与 GPT3.5、GPT4和 Claude-3-Opus 进行比较,其中包括10种语言 ar、es、fr、ko、th、vi、pt、id、ja 和 ru(分数范围从1~5):
楷模 | 应收账 | 西文 | 法国 | 柯 | 日 | 六 | 点 | ID | 贾 | 汝 | 平均的 |
---|---|---|---|---|---|---|---|---|---|---|---|
克劳德-3-作品-20240229 | 4.15 | 4.31 | 4.23 | 4.23 | 4.01 | 3.98 | 4.09 | 4.40 | 3.85 | 4.25 | 4.15 |
GPT-4o-0513 | 3.55 | 4.26 | 4.16 | 4.40 | 4.09 | 4.14 | 3.89 | 4.39 | 3.72 | 4.32 | 4.09 |
GPT-4-Turbo-0409 | 3.44 | 4.08 | 4.19 | 4.24 | 4.11 | 3.84 | 3.86 | 4.09 | 3.68 | 4.27 | 3.98 |
Qwen2-72B-指导 | 3.86 | 4.10 | 4.01 | 4.14 | 3.75 | 3.91 | 3.97 | 3.83 | 3.63 | 4.15 | 3.93 |
GPT-4-0613 | 3.55 | 3.92 | 3.94 | 3.87 | 3.83 | 3.95 | 3.55 | 3.77 | 3.06 | 3.63 | 3.71 |
GPT-3.5-Turbo-1106 | 2.52 | 4.07 | 3.47 | 2.37 | 3.38 | 2.90 | 3.37 | 3.56 | 2.75 | 3.24 | 3.16 |
按任务类型分组,结果如下:
楷模 | 知识 | 理解 | 创建 | 数学 |
---|---|---|---|---|
克劳德-3-作品-20240229 | 3.64 | 4.45 | 4.42 | 3.81 |
GPT-4o-0513 | 3.76 | 4.35 | 4.45 | 3.53 |
GPT-4-Turbo-0409 | 3.42 | 4.29 | 4.35 | 3.58 |
Qwen2-72B-指导 | 3.41 | 4.07 | 4.36 | 3.61 |
GPT-4-0613 | 3.42 | 4.09 | 4.10 | 3.32 |
GPT-3.5-Turbo-1106 | 3.37 | 3.67 | 3.89 | 2.97 |
这些结果证明了 Qwen2指令调整模型强大的多语言能力。