近日,斯坦福大学的大模型测评榜单HELM MMLU发布了最新结果。斯坦福大学基础模型研究中心主任Percy Liang发文指出,阿里巴巴的通义千问Qwen2-72B模型在排名上超过了Llama3-70B,成为表现最优的开源大模型。
MMLU(Massive Multitask Language Understanding,大规模多任务语言理解)是业界最具影响力的大模型测评基准之一。它涵盖了基础数学、计算机科学、法律、历史等57项任务,旨在测试大模型的世界知识和问题解决能力。然而,在实际测评中,不同模型的结果往往缺乏一致性和可比性,这主要是由于使用了非标准提示词技术和未统一采用开源评价框架等原因。
斯坦福大学基础模型研究中心(CRFM,Center for Research on Foundation Models)提出的基础模型评估框架HELM(A holistic framework for evaluating foundation models),致力于创建一种透明、可复现的评估方法。HELM框架对不同模型在MMLU上的评估结果进行标准化和透明化处理,解决了现有MMLU评估中存在的问题。例如,对所有参评模型使用相同的提示词,并在每项测试主题上为模型提供同样的5个示例进行情境学习。
斯坦福大学基础模型研究中心主任Percy Liang近日在社交平台发布了HELM MMLU最新榜单。榜单显示,阿里巴巴的通义千问开源模型Qwen2-72B排名第5,仅次于Claude3Opus、GPT-4o、Gemini1.5pro和GPT-4,是排名最高的开源大模型,同时也是表现最优的中国大模型。
通义千问Qwen2系列于2024年6月初开源,包含5个不同尺寸的预训练和指令微调模型。截至目前,Qwen系列模型的下载量已突破1600万次,显示出其在业界的广泛认可和强大性能。
HELM MMLU的最新评测结果,不仅彰显了Qwen2-72B在多任务语言理解中的卓越表现,也标志着中国大模型在全球AI技术竞赛中的崛起。随着技术的不断进步,期待未来能够看到更多来自中国的优秀大模型在国际舞台上展露头角。