文章分析了当前大模型评测体系中的“跑分乱象”,称大模型榜单广泛存在“家家第一”的情况。现有的开源跑分数据集会引发“刷题”现象;而封闭的私有数据集又会影响公平性。此外,部分榜单的评测维度也不够科学全面。文章建议建立权威的评测体系,开源评测工具与流程以保证公平,但评测数据集则采用开放历史+封闭正式的模式。此外,大模型的商业化远比模型的参数和榜单排名更为重要。
相关AI新闻推荐
麦肯锡裁员约 200 个科技岗位,人工智能技术应用加速
麦肯锡公司近期裁员约200个科技岗位,旨在通过人工智能应用提升效率,自动化部分工作。此举与行业趋势一致,多家公司正利用AI优化流程、降低成本。麦肯锡正评估哪些任务可由AI承担,对工作职能进行详细分析。
13GB显存干翻百亿巨兽:大华「星汉2.0」用一张财报给AI落地写答案
大华股份在同行拼参数时,将6B视觉模型塞进16GB显存边缘盒子,Q3净利增44%至10.6亿元。其2019年起用Transformer自洗数据、自标注,五年后"1+2"体系发展出V/M/L系列模型,实现高效边缘AI部署。

AI日报:阿里开源Z-Image图像模型;夸克AI眼镜发布;Opera Neon 浏览器升级
阿里巴巴开源Z-Image图像模型,支持中英双语文字渲染,仅6B参数实现高效图像生成与编辑,视觉质量优秀。该模型由通义实验室开发,聚焦AI技术趋势,助力开发者洞悉创新应用。

6B参数、16G显存、 8 步出图:阿里Z-Image把“百亿大模型”拍在沙滩上
阿里通义实验室推出Z-Image-Turbo模型,仅6B参数却媲美20B+闭源模型。在RTX4090上2.3秒完成1024×1024图像渲染,显存占用13GB。支持8步采样输出印刷级画质,兼容3060 6G等消费级显卡,显存需求最高16G。模型精准理解复杂中文提示,如“夜晚的阳光”等抽象描述。

阿里巴巴开源 Z-Image 图像模型:支持中英双语文字渲染
阿里巴巴开源Z-Image图像生成模型,仅6B参数实现高效生成与编辑,视觉质量接近20B级别商业模型。该模型采用单流DiT架构,生成速度快、资源占用低,有望推动AI图像工具普及消费级应用。
巨人网络发布三大 Muli-Modal 模型:消除视频畸变,歌声转换实现“真实歌曲可用”
巨人网络AI Lab联合清华大学、西北工业大学发布三项音视频多模态生成技术:YingVideo-MV(音乐驱动视频生成)、YingMusic-SVC(零样本歌声转换)和YingMusic-Singer(歌声合成)。这些技术将开源,其中YingVideo-MV仅需音乐和人物图像即可生成视频。
美团“亲儿子”大换血:王慧文交印,刘亚平接棒光年之外
美团联合创始人王慧文卸任光年之外科技公司法定代表人、执行董事及总经理职务,监事刘敏娟同时退出。刘亚平接任法定代表人、董事和总经理,全面执掌这家2018年成立、注册资本100万元的美团全资子公司。
AI 时代转折:Ilya 断言“规模狂奔”终结,人类情感成下一个智能密码
AI专家Ilya Sutskever创立SSI实验室,提出AI发展新方向:告别“规模时代”,转向模拟人类学习与情感机制,旨在解决当前模型测试高分但实际应用不足的问题,推动安全超智能的实现。

夸克AI浏览器“偷家”:系统级六连外挂闪击Chrome,19.9刀月费无痛上车
夸克浏览器推出内置千问AI助手的系统级功能,通过侧边栏、读屏、划词等六种方式无缝集成AI,无需切换标签,Alt+Space快捷启动,月费19.9美元,国内网络直接可用。

清华大学发布首个系统性《人工智能教育应用指导原则》:严防“AI 学术依赖”
清华大学发布首份AI教育应用指导原则,系统规范校园AI使用,覆盖教学、科研等核心场景。文件分总则、教学、学位论文三部分,强调“积极而审慎”立场,旨在全局引导AI合理应用。