通义千问联合魔搭社区开源测试集P-MMEval：可评测模型多语言能力

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年12月12号 8:39

187

阿里巴巴达摩院联合魔搭社区ModelScope近期宣布开源一项新的多语言基准测试集P-MMEval，旨在全面评估大型语言模型（LLM）的多语言能力，并进行跨语言迁移能力的比较分析。这一测试集覆盖了基础和专项能力的高效数据集，确保了所有挑选的数据集中多语言覆盖的一致性，并提供了跨多种语言的并行样本，最高支持来自8个不同语族的10种语言，包括英语、中文、阿拉伯语、西班牙语、日语、韩语、泰语、法语、葡萄牙语和越南语。

P-MMEval的推出响应了开发和迭代大型语言模型时对准确且并行评估结果的需求，这对于识别模型的多语言能力和量化性能至关重要。早期工作主要集中在单一任务评估上，而近期研究提出了一些大规模多语言多任务评估基准，统一了多个具有代表性的独立基准任务。然而，这些大规模基准测试集在覆盖多语言种类上并不一致。

微信截图_20241212083907.png

P-MMEval基于一种基于显著性检验的方法挑选可用且合理的基准测试集，整合了基础自然语言处理任务和能力特定的评估任务，确保每个任务在语言覆盖上的一致性，并提供跨语言的平行样本，以便进行一致的比较。对于任务多样性，P-MMEval涵盖了两个关键的基础NLP任务（生成和理解）以及当前LLM的五种核心能力。在语言多样性方面，P-MMEval统一了涵盖八个语系的十种不同语言。

P-MMEval数据集已经集成到司南评测体系OpenCompass和EvalScope评测框架中，使用这两个框架均可以执行评测任务。OpenCompass提供了一个开源、高效、全面的大模型评测开放平台，支持大语言模型、多模态模型各类模型的一站式评测，并定期公布评测结果榜单。P-MMEval也在第一时间接入了OpenCompass的评测体系，可使用司南OpenCompass开源工具完成评测任务。

研究人员评估了几种代表性的指令调优模型的性能，包括闭源模型GPT-4o、Claude-3.5和开源模型LLaMA3.1、LLaMA3.2、Qwen2.5等。实验结果表明，除了LLaMA3.2系列外，所有模型的多语言能力随着模型规模的增加而提高。Qwen2.5在理解和专项能力任务上表现出强大的多语言性能，而Gemma2在生成任务上表现出色。闭源模型总体上优于开源模型。

P-MMEval的推出为大模型的多语言能力评估提供了新的工具和方法，有助于推动多语言NLP技术的发展和应用。

数据集链接:

https://www.modelscope.cn/datasets/modelscope/P-MMEval

深推理模型崛起！Together AI融资3.05亿美元助推GPU需求

在 AI 行业，Together AI 最近宣布完成了一轮3.05亿美元的 B 轮融资，这一消息引起了广泛关注。该公司的崛起与其新推出的深度理模型 DeepSeek-R1密切相关。与最初的担忧相反，许行业专家认为，深度推理的进步并没有降低对基础设施的需求，反而在不断提升这一需求。图源备注：图片由AI生成，图片授权服务商Midjourney自2023年成立以来，Together AI 旨在简化企业对开源大型语言模型（LLM）的使用。随着时间的推移，该公司逐步扩展其平台，提供了一个名为 “Together 平台” 的解决方案，支持在虚

AI大语言模型幻觉排行榜：Gemini 2.0 Flash幻觉最低

近日，Vectara 发布了一份名为 “幻觉排行榜” 的报告，比较了不同大型语言模型（LLM）在总结短文档时产生幻觉的表现。这份排行榜利用了 Vectara 的 Hughes 幻觉评估模型(HHEM-2.1)，该模型定期更新，旨在评估这些模型在摘要中引入虚假信息的频率。根据最新数据，报告指出了一系列流行模型的幻觉率、事实一致性率、应答率以及平均摘要长度等关键指标。在最新的排行榜中，谷歌的 Gemini2.0系列表现出色，尤其是 Gemini-2.0-Flash-001，以0.7% 的低幻觉率位居榜首，显示出其在处理文档时几乎没有引

微软发布 OmniParser V2.0：把屏幕截图转化成LLM可处理的结构化格式

微软近日发布了 OmniParser V2.0，这是一个旨在将用户界面（UI）截图转换为结构化格式的全新解析工具。OmniParser 能够提高基于大型语言模型(LLM)的 UI 代理的性能，帮助用户更好地理解和操作屏幕上的信息。该工具的训练数据集包括一个可交互图标检测数据集，该数据集从热门网页中精心挑选并自动注释，以突出可点击和可操作的区域。此外，还有一个图标描述数据集，旨在将每个 UI 元素与其对应的功能相结合。在 V2.0版本中，OmniParser 进行了显著改进，更新后的数据集更大且更干净，图标的

Meta 创新推出 “连续概念混合” 框架，推动 Transformer 预训练新革命

近年来，随着大型语言模型（LLMs）的快速发展，自然语言处理领域经历了前所未有的变革。这些技术如今广泛应用于代码助手、搜索引擎和个人 AI 助手等场景，展现了强大的能力。然而，传统的 “下一个 token 预测” 范式存在一定局限性，尤其是在处理复杂推理和长期任务时，模型需要经历大量训练才能掌握深层次的概念理解。为了解决这一问题，Meta 等机构的研究者们提出了一种名为 “连续概念混合”（CoCoMix）的新颖预训练框架。这一方法不仅保留了下一个 token 预测的优点，还引入了

AI新闻资讯