大模型评测乱象调查:参数规模不代表一切

36氪

发布于AI新闻资讯 · 1 分钟阅读 · 2023年9月25号 9:54

随着ChatGPT热潮,国内外大模型评测榜单陆续推出,但参数规模相近的大模型在不同榜单中的排名差异巨大。产业界和学界分析认为,这主要与评测集的不同有关,还与主观题比例上升导致评测公正性受质疑相关。因此,第三方评测机构如OpenCompass和FlagEval开始受关注。但业内认为,要做出真正全面有效的大模型评测,还需要考量模型鲁棒性、安全性等其他维度,目前仍在探索中。

智谱GLM-4-9B模型幻觉率仅1.3%，在全球大模型评测中夺魁

在人工智能领域，大语言模型的"幻觉问题"一直是困扰业界的关键挑战。近日，一项基于HHEM-2.1-Open评估体系的测试结果显示，智谱AI旗下的GLM-4-9B模型交出了一份令人瞩目的成绩单。测试数据显示，在参与评估的85个大语言模型中，GLM-4-9B以98.7%的事实一致性率和100%的回答率摘得桂冠。特别值得关注的是，该模型的幻觉率仅为1.3%，这一成绩不仅位居榜首，更是超越了行业巨头OpenAI的GPT系列和Google的Gemini系列模型。图源备注：图片由AI生成，图片授权服务商Midjourney这一突破性成果标志着中国大

大模型评测平台CompassArena升级推出全新 Judge Copilot 功能

上海人工智能实验室司南OpenCompass团队与魔搭ModelScope联合推出的大模型评测平台CompassArena（大模型竞技场）近日迎来了新升级，旨在为用户提供更科学、全面的模型评估体验。自上线以来，该平台吸引了大量社区用户参与并贡献数据，基于这些数据，CompassArena不断优化，此次升级包括全新Judge Copilot功能和榜单算法的改进，以及新增20多个全新模型。

OpenAI发布AI智能体的评测集：MLE-bench

在近期的一项研究中，OpenAI研究团队推出了名为 MLE-bench 的全新基准测试，旨在评估AI智能体在机器学习工程方面的表现。这项研究特别关注75个来自 Kaggle 的机器学习工程相关竞赛，旨在测试代理在现实世界中所需的多种技能，包括模型训练、数据集准备和实验运行等。为了更好地进行评估，研究团队使用了 Kaggle 公开排行榜的基础数据，确立了每个竞赛的人类基准。在实验中，他们利用开源的智能体架构，对几种前沿语言模型进行了测试。结果显示，最佳表现的配置 ——OpenAI 的 o1-preview

大模型评测平台Compass Arena新增多模态大模型竞技版块

上海人工智能实验室的司南 OpenCompass 团队与魔搭 ModelScope 合作，推出了 Compass Multi-Modal Arena，这是一个大模型评测平台的新版块，专注于多模态大模型。用户可通过上传图像并输入问题，让两个匿名多模态大模型生成答案，然后基于生成内容的质量进行主观评估，选择表现更佳的模型。平台提供简单易用的界面和特色题库，题库侧重于主观视觉问答任务，如迷因理解、艺术品赏析和摄影作品赏析。此平台旨在评估多模态大模型在主观任务上的性能和用户体验，并已向公众开放。

AI新闻资讯

大模型评测乱象调查:参数规模不代表一切

36氪

相关AI新闻推荐

智谱GLM-4-9B模型幻觉率仅1.3%，在全球大模型评测中夺魁

大模型评测平台CompassArena升级 推出全新 Judge Copilot 功能

OpenAI发布AI智能体的评测集：MLE-bench

大模型评测平台Compass Arena新增多模态大模型竞技版块

大模型评测平台CompassArena升级推出全新 Judge Copilot 功能