文章分析了当前大模型评测体系中的“跑分乱象”,称大模型榜单广泛存在“家家第一”的情况。现有的开源跑分数据集会引发“刷题”现象;而封闭的私有数据集又会影响公平性。此外,部分榜单的评测维度也不够科学全面。文章建议建立权威的评测体系,开源评测工具与流程以保证公平,但评测数据集则采用开放历史+封闭正式的模式。此外,大模型的商业化远比模型的参数和榜单排名更为重要。
相关AI新闻推荐

中关村科金携手华为云推出新解决方案,助力行业大模型应用落地
在2025大模型技术与应用创新城市论坛的深圳站上,中关村科金与华为云共同发布了昇腾云与得助大模型平台的联合解决方案,标志着二者在垂直行业大模型应用方面的深度合作。此次论坛由中关村科金与深圳市人工智能产业协会联合主办,旨在推动大模型技术的广泛应用和创新发展。该解决方案的推出,意在加速各行业对大模型技术的实际应用。随着人工智能技术的不断发展,行业需求日益增强,特别是在智能客服和质检等领域。中关村科金在论坛上还宣布了两款核心产品的升级:得助智

银行科技转型加速,大模型应用深入核心业务
随着银行业在数字化型中面临的挑战与压力日益加大,越来越多的银行开始将大模型技术融入到核心业务中,而不仅仅停留在简单的聊天机器人应用上。最新的财报数据显示,国内一些主要银行在科技投入和大模型应用方面取得了显著进展,但同时也显露出投入的分化趋势。根据钛媒体 App 对十家主要银行的分析,包括六大国有银行及几家股份制银行,发现其中六家银行的科技投入出现了缩减。例如,建设银行的科技投入为244.33亿元,同比减少2.36%;招商银行则减少了5.49%,降至133.5亿元。这

腾讯混元大模型应用实战课程正式上线国家智慧教育平台
近日,腾讯公司宣布其最新推出的 “腾讯混元大模型应用实战课程” 正式上线国家智慧教育平台。这一课程旨在为全国的高校师生提供全面的 AI 大模型技术知识和实用技能,帮助他们更高效地利用人工智能技术推动教育和科研的创新发展。3月28日,教育部在国家教育数字化战略行动2025年部署会上发布了国家智慧教育平台2.0智能版。这一新平台整合了众多教育资源,为教师和学生提供更加丰富和高效的学习体验。在这样的背景下,腾讯的课程如同一剂强心针,旨在帮助教育工作者和学习者

火山引擎宣布大模型应用开源:上线“大模型应用实验室”,释放 AI 创新潜力
火山引擎今日通过 X 平台宣布,其大模型应用正式开源,并推出全新“大模型应用实验室”平台。这一举措标志着火山引擎在 AI 技术生态建设上的重大突破,旨在通过开放核心应用和技术资源,加速开发者社区的创新步伐。此次开源的应用包括手机助手、Deep Research、DeepSeek 联网版、实时视频理解、互动双语视频生成器以及语音实时通话-青青等一系列前沿 AI 工具,引发了 X 用户的广泛热议。“大模型应用实验室”上线,全面开源火山引擎在 X 上发布声明称,“大模型应用实验室”平台现已

智谱GLM-4-9B模型幻觉率仅1.3%,在全球大模型评测中夺魁
在人工智能领域,大语言模型的"幻觉问题"一直是困扰业界的关键挑战。近日,一项基于HHEM-2.1-Open评估体系的测试结果显示,智谱AI旗下的GLM-4-9B模型交出了一份令人瞩目的成绩单。测试数据显示,在参与评估的85个大语言模型中,GLM-4-9B以98.7%的事实一致性率和100%的回答率摘得桂冠。特别值得关注的是,该模型的幻觉率仅为1.3%,这一成绩不仅位居榜首,更是超越了行业巨头OpenAI的GPT系列和Google的Gemini系列模型。图源备注:图片由AI生成,图片授权服务商Midjourney这一突破性成果标志着中国大

科大讯飞推出商业生态平台 2.0 助力大模型应用新生态
在 AI 时代,企业们不仅需要关注模型的参数,更加重视其应用价值。随着2024年大模型中标项目数量激增至1520个,科大讯飞在北京中关村召开了 AI 服务市场行业伙伴生态大会,汇聚了数百家企业代表,共同探讨大模型技术的前沿趋势及应用实践。科大讯飞高级副总裁于继栋指出,AI 服务市场致力于推动产业升级,并为 AI 焕新构建了全新的行业增长模式。自2010年起,科大讯飞就通过开放平台与全球开发者共享最新 AI 技术,并在2018年推出了 AI 服务市场,以连接供需、推动产业发展。如今,

阿里通义与雷鸟合作推出 AI 眼镜,推动大模型应用落地
在科技不断发展的背景下,AI 眼镜的热潮已在国内外迅速掀起。2024年1月7日,雷鸟创新公司正式发布了首款搭载阿里通义定制意图识别大模型的雷鸟 V3AI 拍摄眼镜。这一产品的发布标志着国内首次实现大模型与 AI 眼镜硬件的定制合作,旨在加速端侧模型在 AI 眼镜上的应用落地。此次发布会强调,AI 眼镜市场的快速增长受到 Meta 和雷朋等公司推出的第二代拍摄眼镜的影响。雷鸟创始人李宏伟表示,预计2025年将成为智能眼镜的 “世纪大战之年”。业内分析师指出,虽然大模型与 AI 眼镜结合

大模型评测平台CompassArena升级 推出全新 Judge Copilot 功能
上海人工智能实验室司南OpenCompass团队与魔搭ModelScope联合推出的大模型评测平台CompassArena(大模型竞技场)近日迎来了新升级,旨在为用户提供更科学、全面的模型评估体验。自上线以来,该平台吸引了大量社区用户参与并贡献数据,基于这些数据,CompassArena不断优化,此次升级包括全新Judge Copilot功能和榜单算法的改进,以及新增20多个全新模型。

零一万物与华为联手,开发原生大模型应用
近日,北京零一万物信息技术有限公司与华为技术有限公司在北京举行了签约仪式,正式启动基于华为昇腾硬件的原生大模型应用开发。这一合作将结合双方的技术优势,着力于人工智能在多个行业中的应用,特别是在金融、政务、制造、能源、交通和运营商等领域。此次合作的核心在于零一万物将利用华为的昇腾硬件底座、昇腾异构计算架构(CANN)、昇思 MindSpore AI 框架以及 MindIE 推理引擎,开发一系列原生大模型应用。该项目旨在构建更高效的 AI 智能体(AI-Agents),为各行业提供更加智

大模型评测平台Compass Arena新增多模态大模型竞技版块
上海人工智能实验室的司南 OpenCompass 团队与魔搭 ModelScope 合作,推出了 Compass Multi-Modal Arena,这是一个大模型评测平台的新版块,专注于多模态大模型。用户可通过上传图像并输入问题,让两个匿名多模态大模型生成答案,然后基于生成内容的质量进行主观评估,选择表现更佳的模型。平台提供简单易用的界面和特色题库,题库侧重于主观视觉问答任务,如迷因理解、艺术品赏析和摄影作品赏析。此平台旨在评估多模态大模型在主观任务上的性能和用户体验,并已向公众开放。