文章分析了当前大模型评测体系中的“跑分乱象”,称大模型榜单广泛存在“家家第一”的情况。现有的开源跑分数据集会引发“刷题”现象;而封闭的私有数据集又会影响公平性。此外,部分榜单的评测维度也不够科学全面。文章建议建立权威的评测体系,开源评测工具与流程以保证公平,但评测数据集则采用开放历史+封闭正式的模式。此外,大模型的商业化远比模型的参数和榜单排名更为重要。
相关AI新闻推荐

腾讯混元大模型应用实战课程正式上线国家智慧教育平台
近日,腾讯公司宣布其最新推出的 “腾讯混元大模型应用实战课程” 正式上线国家智慧教育平台。这一课程旨在为全国的高校师生提供全面的 AI 大模型技术知识和实用技能,帮助他们更高效地利用人工智能技术推动教育和科研的创新发展。3月28日,教育部在国家教育数字化战略行动2025年部署会上发布了国家智慧教育平台2.0智能版。这一新平台整合了众多教育资源,为教师和学生提供更加丰富和高效的学习体验。在这样的背景下,腾讯的课程如同一剂强心针,旨在帮助教育工作者和学习者

火山引擎宣布大模型应用开源:上线“大模型应用实验室”,释放 AI 创新潜力
火山引擎今日通过 X 平台宣布,其大模型应用正式开源,并推出全新“大模型应用实验室”平台。这一举措标志着火山引擎在 AI 技术生态建设上的重大突破,旨在通过开放核心应用和技术资源,加速开发者社区的创新步伐。此次开源的应用包括手机助手、Deep Research、DeepSeek 联网版、实时视频理解、互动双语视频生成器以及语音实时通话-青青等一系列前沿 AI 工具,引发了 X 用户的广泛热议。“大模型应用实验室”上线,全面开源火山引擎在 X 上发布声明称,“大模型应用实验室”平台现已

智谱GLM-4-9B模型幻觉率仅1.3%,在全球大模型评测中夺魁
在人工智能领域,大语言模型的"幻觉问题"一直是困扰业界的关键挑战。近日,一项基于HHEM-2.1-Open评估体系的测试结果显示,智谱AI旗下的GLM-4-9B模型交出了一份令人瞩目的成绩单。测试数据显示,在参与评估的85个大语言模型中,GLM-4-9B以98.7%的事实一致性率和100%的回答率摘得桂冠。特别值得关注的是,该模型的幻觉率仅为1.3%,这一成绩不仅位居榜首,更是超越了行业巨头OpenAI的GPT系列和Google的Gemini系列模型。图源备注:图片由AI生成,图片授权服务商Midjourney这一突破性成果标志着中国大

科大讯飞推出商业生态平台 2.0 助力大模型应用新生态
在 AI 时代,企业们不仅需要关注模型的参数,更加重视其应用价值。随着2024年大模型中标项目数量激增至1520个,科大讯飞在北京中关村召开了 AI 服务市场行业伙伴生态大会,汇聚了数百家企业代表,共同探讨大模型技术的前沿趋势及应用实践。科大讯飞高级副总裁于继栋指出,AI 服务市场致力于推动产业升级,并为 AI 焕新构建了全新的行业增长模式。自2010年起,科大讯飞就通过开放平台与全球开发者共享最新 AI 技术,并在2018年推出了 AI 服务市场,以连接供需、推动产业发展。如今,

阿里通义与雷鸟合作推出 AI 眼镜,推动大模型应用落地
在科技不断发展的背景下,AI 眼镜的热潮已在国内外迅速掀起。2024年1月7日,雷鸟创新公司正式发布了首款搭载阿里通义定制意图识别大模型的雷鸟 V3AI 拍摄眼镜。这一产品的发布标志着国内首次实现大模型与 AI 眼镜硬件的定制合作,旨在加速端侧模型在 AI 眼镜上的应用落地。此次发布会强调,AI 眼镜市场的快速增长受到 Meta 和雷朋等公司推出的第二代拍摄眼镜的影响。雷鸟创始人李宏伟表示,预计2025年将成为智能眼镜的 “世纪大战之年”。业内分析师指出,虽然大模型与 AI 眼镜结合

大模型评测平台CompassArena升级 推出全新 Judge Copilot 功能
上海人工智能实验室司南OpenCompass团队与魔搭ModelScope联合推出的大模型评测平台CompassArena(大模型竞技场)近日迎来了新升级,旨在为用户提供更科学、全面的模型评估体验。自上线以来,该平台吸引了大量社区用户参与并贡献数据,基于这些数据,CompassArena不断优化,此次升级包括全新Judge Copilot功能和榜单算法的改进,以及新增20多个全新模型。

零一万物与华为联手,开发原生大模型应用
近日,北京零一万物信息技术有限公司与华为技术有限公司在北京举行了签约仪式,正式启动基于华为昇腾硬件的原生大模型应用开发。这一合作将结合双方的技术优势,着力于人工智能在多个行业中的应用,特别是在金融、政务、制造、能源、交通和运营商等领域。此次合作的核心在于零一万物将利用华为的昇腾硬件底座、昇腾异构计算架构(CANN)、昇思 MindSpore AI 框架以及 MindIE 推理引擎,开发一系列原生大模型应用。该项目旨在构建更高效的 AI 智能体(AI-Agents),为各行业提供更加智

大模型评测平台Compass Arena新增多模态大模型竞技版块
上海人工智能实验室的司南 OpenCompass 团队与魔搭 ModelScope 合作,推出了 Compass Multi-Modal Arena,这是一个大模型评测平台的新版块,专注于多模态大模型。用户可通过上传图像并输入问题,让两个匿名多模态大模型生成答案,然后基于生成内容的质量进行主观评估,选择表现更佳的模型。平台提供简单易用的界面和特色题库,题库侧重于主观视觉问答任务,如迷因理解、艺术品赏析和摄影作品赏析。此平台旨在评估多模态大模型在主观任务上的性能和用户体验,并已向公众开放。

阿里云推出首个域名AI大模型应用 可一键生成创意域名
阿里云在万网焕新发布会上宣布了其域名产品服务的AI化改造,并推出了基于通义大模型的首个域名AI应用。用户现在可以通过输入品牌信息和所属行业,利用AI智能起名功能一键生成创意域名。AI将进行语义解析,评估域名含义,并筛选出可用选项。

阿里通义大模型成巴黎奥运会首个AI大模型应用技术提供方
阿里巴巴的通义大模型将作为巴黎奥运会AI大模型应用的技术提供方,阿里云通过AI增强技术,包括实现创新的“子弹时间”高自由度回放技术,为观众带来沉浸式观赛体验。该技术利用高速摄像机阵列和云计算,实时捕捉比赛精彩瞬间,在官方服务器上3D重建并从多角度回放。部署在观众看台的高清摄像机会在运动员进入特定区域时捕捉瞬间,随后传输到云端进行复杂处理,营造出定格细节、旋转放大等极致体验效果。“子弹时间”将应用于多个体育赛事的14个场馆转播。此技术不仅提升了观众体验,也展示了AI在体育转播领域的潜力与创新。