文章分析了当前大模型评测体系中的“跑分乱象”,称大模型榜单广泛存在“家家第一”的情况。现有的开源跑分数据集会引发“刷题”现象;而封闭的私有数据集又会影响公平性。此外,部分榜单的评测维度也不够科学全面。文章建议建立权威的评测体系,开源评测工具与流程以保证公平,但评测数据集则采用开放历史+封闭正式的模式。此外,大模型的商业化远比模型的参数和榜单排名更为重要。
相关AI新闻推荐

国内团队创造历史!“人类最后的考试” 首次得分突破30分,AI竞争再升级!
上海交大与深势科技团队开发的X-Master智能体系统在超高难度AI测试"HLE"中创下32.1分新纪录,首次突破30分大关。该系统采用工具增强型推理和多智能体协作架构,能模拟人类研究思维,通过代码执行和反馈循环优化决策。其分散-堆叠式工作流让多个智能体并行解题、评估改进,最终整合最优方案,尤其在生物医学领域表现突出。该成果已开源,推动AI领域发展。

AI日报:阿里通义开源音频生成模型ThinkSound;谷歌Veo3支态图片生成视频;昆仑万维发布 Skywork-R1V 3.0
【AI日报速览】阿里开源ThinkSound音频生成模型,支持链式推理实现高保真空间音频;谷歌Veo3升级,单图即可生成专业运镜视频;Hugging Face发布30亿参数SmolLM3模型,支持双模式推理;阿里WebSailor智能体展现强大检索能力;Moonvalley推出1080P无版权风险视频模型;Vidu Q1支持7图融合生成一致性视频;苹果研发AI客服助手优化用户体验;飞书发布多款企业AI产品及成熟度模型;微软等科技巨头联合成立AI教育学院,投入2300万美元培训教师。

Hugging Face重磅开源SmolLM3:3B参数小模型媲美4B巨头,128K上下文引领高效AI新风潮!
Hugging Face推出3B参数开源模型SmolLM3,性能媲美4B参数模型。该模型采用GQA和NoPE技术优化,支持128K长上下文和六种语言处理,在多项基准测试中表现优异。创新性地提供"思考"与"非思考"双推理模式,复杂任务性能提升显著。完全开源训练数据与代码,适合边缘设备部署,为教育、客服等场景提供高性价比解决方案。其开源特性将推动AI生态发展,展现小模型的巨大潜力。

智元机器人公布机器人运动控制模型相关专利
智元机器人公司近日公布一项机器人运动控制模型训练专利。该专利通过对比机器人实际接触序列与预期接触序列的差异,生成摆动激励值来优化模型参数。其中预期接触序列基于相位变量和步态映射关系生成,包含摆动相占空比和足间相位偏移量等信息。该方法能有效提升机器人运动控制精度,使机器人动作更加精准稳定。

Moonvalley发布Marey Realism v1.5:原生1080P AI视频模型,零版权风险引领行业新风向!
Moonvalley发布全新AI视频生成模型Marey Realism v1.5,具备三大核心优势:原生1080P高清画质,基于授权训练数据确保零版权风险,以及精准解读复杂提示的创作能力。该模型支持文本/图像转视频,能生成电影级运动光影效果,未来还将推出姿势传递功能。这一突破性产品为影视制作、广告创意等领域提供了安全高效的AI创作工具,推动行业技术升级。

英伟达与港大等合作推出快速 KV 缓存,助力扩散模型提速
英伟达联合港大、MIT推出Fast-dLLM技术,显著提升扩散语言模型推理效率。该技术通过创新的块状KV缓存机制,将LLaDA模型推理速度提升27.6倍,同时采用置信度解码策略保证生成质量。测试显示,在数学推理等任务中,模型吞吐量达54.4tokens/s,准确率保持78.5%,实现速度与质量的双重突破。

AI购物助手助力亚马逊 Prime Day 大促,销售额将突破238亿美元
亚马逊Prime Day大促7月8-11日举行,预计美国线上消费达238亿美元,同比增长28.4%。AI购物将成亮点:生成式AI流量预计暴增3200%,超半数消费者用AI进行产品研究、推荐和比价。数据显示92%的AI用户认为技术改善了购物体验,87%会在复杂购买时使用AI。谷歌Gemini和ChatGPT等AI工具正加速融入电商场景。服装折扣和开学季需求将成为本次大促的主要驱动力。

阿里通义开源支持链式推理的音频生成模型ThinkSound
近日,阿里语音AI团队宣布开源全球首个支持链式推理的音频生成模型ThinkSound,该模型通过引入思维链(Chain-of-Thought)技术,突破传统视频转音频技术对画面动态捕捉的局限,实现高保真、强同步的空间音频生成。这一突破标志着AI音频技术从“看图配音”向“结构化理解画面”的跨越式发展。

Hugging Face发布新一代小参数模型 SmolLM3:128K上下文,双模式推理
Hugging Face发布开源小模型SmolLM3,30亿参数性能超越同类产品。该模型支持128k上下文窗口和多语言处理,提供深度/非深度两种推理模式。采用改进的transformer架构,经三阶段混合训练(网络/数学/代码数据)优化性能。完全公开架构细节和训练流程,促进开发者研究。模型具备高效推理能力,为AI应用提供新可能。

AI日报:腾讯混元推3D生成大模型Hunyuan3D-PolyGen;钉钉AI表格重磅来袭;阿里推多模态大语言模型HumanOmniV2
【AI日报热点速览】1.腾讯混元推出美术级3D生成大模型Hunyuan3D-PolyGen,创新BPT技术提升建模效率70%;2.阿里HumanOmniV2多模态模型准确率达69.33%,支持多语言输入;3.钉钉AI表格实现1小时处理千项任务,首创"表格即文档"功能;4.百度PaddleOCR3.1支持37种语言识别,准确率提升30%;5.微软Deep Research自动化研究工具开放API;6.香港理工与OPPO联合推出视频高清化框架DLoRAL,推理速度提升10倍;7.谷歌开源数据库AI工具MCP Toolbox,简化SQL集成;8.微软Win11将推AI动态壁纸功能,代码已现身预览版。