文章分析了当前大模型评测体系中的“跑分乱象”,称大模型榜单广泛存在“家家第一”的情况。现有的开源跑分数据集会引发“刷题”现象;而封闭的私有数据集又会影响公平性。此外,部分榜单的评测维度也不够科学全面。文章建议建立权威的评测体系,开源评测工具与流程以保证公平,但评测数据集则采用开放历史+封闭正式的模式。此外,大模型的商业化远比模型的参数和榜单排名更为重要。
相关AI新闻推荐

混元推出国内首个交互式AI播客,用户可随时提问
腾讯混元推出国内首个交互式AI播客,用户可通过语音或文字实时向主持人和嘉宾提问,打破传统播客单向收听局限,提升互动性和信息获取效率。

AI日报:豆包推全自动多人配音系统;Adobe Firefly Image 5重磅升级;Soul语音模型SoulX-Podcast发布
豆包推出全自动AI多人有声剧系统,可直接从小说文本生成多人配音,角色识别准确率达98%,媲美专业广播剧效果。该方案为AI有声内容生产带来革新。

清华与快手联手推出新型SVG扩散模型,训练效率暴增6200%
清华大学与快手可灵团队合作推出SVG模型,替代VAE,解决了语义纠缠问题,训练效率提升6200%,生成速度提高3500%,标志着VAE在图像生成领域逐步淘汰。

抖音副总裁李亮:AI 技术助力谣言治理,构建可信平台环境
央视报道AI制造假新闻问题,抖音副总裁李亮回应称AI是双刃剑:虽易造谣,但抖音正用AI治理谣言,开发智能体快速搜索权威信息辟谣。
抖音副总裁李亮称 AI 令造谣更易,平台正用智能体治理谣言
抖音副总裁李亮强调AI易被用于制造谣言,平台正积极以AI技术治理谣言,开发“谣言治理智能体”全网快速搜索,作为今年重点工作。

Soul语音模型SoulX-Podcast震撼发布:90分钟无中断播客生成,AI语音革命再升级
Soul推出SoulX-Podcast语音模型,专为播客设计,实现高真实度语音生成。支持长时段、多说话人、多语种交互,在自然对话模拟上取得突破。核心亮点是高保真与稳定性,能连续生成超90分钟内容无衰减,确保流畅自然。

Adobe Firefly Image 5重磅升级:400万像素原生生成、AI音轨+自定义模型,创作者迎来“全栈式”AI创作时代
Adobe发布专业级AI图像生成模型Firefly Image5,实现从“够用”到专业级的质变。新功能包括原生400万像素输出、分层提示编辑、自定义艺术风格模型及AI语音配乐生成,打通图像、视频、音频的AI创作闭环,重新定义创意工作流。

2025年三季度AI应用市场现状:移动端用户突破 7 亿,豆包夺原生AI APP月活第一
QuestMobile报告显示,2025年三季度移动AI应用用户超7亿,原生APP、In-APP AI和手机AI助手月活用户分别为2.87亿、7.06亿和5.35亿,复合增长率达3.4%、9.3%和1.2%。增长主要受益于厂商模型升级和生态协同,互联网公司大模型更新活跃。

IBM 发布 Granite 4.0 Nano 模型,突破小型 AI 模型的性能极限
IBM发布Granite4.0Nano系列AI模型,参数规模350万至15亿,强调高效与可及性。模型可在笔记本电脑或浏览器本地运行,无需依赖云计算,支持开发者在普通硬件或边缘设备构建应用,突破行业依赖云服务的常规趋势。
Adobe 开启 AI 开放时代:核心应用全面集成对话助手与外部模型,Firefly5.0可生成4K 原生图像!
Adobe在MAX大会上推出基于聊天的AI助手,覆盖Photoshop、Express和Firefly应用。用户可通过对话委派创意任务并获取分步指导。同时扩大对Google、OpenAI等第三方AI模型的支持,推动内容创作向开放智能化发展。