文章分析了当前大模型评测体系中的“跑分乱象”,称大模型榜单广泛存在“家家第一”的情况。现有的开源跑分数据集会引发“刷题”现象;而封闭的私有数据集又会影响公平性。此外,部分榜单的评测维度也不够科学全面。文章建议建立权威的评测体系,开源评测工具与流程以保证公平,但评测数据集则采用开放历史+封闭正式的模式。此外,大模型的商业化远比模型的参数和榜单排名更为重要。
文章分析了当前大模型评测体系中的“跑分乱象”,称大模型榜单广泛存在“家家第一”的情况。现有的开源跑分数据集会引发“刷题”现象;而封闭的私有数据集又会影响公平性。此外,部分榜单的评测维度也不够科学全面。文章建议建立权威的评测体系,开源评测工具与流程以保证公平,但评测数据集则采用开放历史+封闭正式的模式。此外,大模型的商业化远比模型的参数和榜单排名更为重要。
近日,北京零一万物信息技术有限公司与华为技术有限公司在北京举行了签约仪式,正式启动基于华为昇腾硬件的原生大模型应用开发。这一合作将结合双方的技术优势,着力于人工智能在多个行业中的应用,特别是在金融、政务、制造、能源、交通和运营商等领域。此次合作的核心在于零一万物将利用华为的昇腾硬件底座、昇腾异构计算架构(CANN)、昇思 MindSpore AI 框架以及 MindIE 推理引擎,开发一系列原生大模型应用。该项目旨在构建更高效的 AI 智能体(AI-Agents),为各行业提供更加智
上海人工智能实验室的司南 OpenCompass 团队与魔搭 ModelScope 合作,推出了 Compass Multi-Modal Arena,这是一个大模型评测平台的新版块,专注于多模态大模型。用户可通过上传图像并输入问题,让两个匿名多模态大模型生成答案,然后基于生成内容的质量进行主观评估,选择表现更佳的模型。平台提供简单易用的界面和特色题库,题库侧重于主观视觉问答任务,如迷因理解、艺术品赏析和摄影作品赏析。此平台旨在评估多模态大模型在主观任务上的性能和用户体验,并已向公众开放。
阿里云在万网焕新发布会上宣布了其域名产品服务的AI化改造,并推出了基于通义大模型的首个域名AI应用。用户现在可以通过输入品牌信息和所属行业,利用AI智能起名功能一键生成创意域名。AI将进行语义解析,评估域名含义,并筛选出可用选项。
阿里巴巴的通义大模型将作为巴黎奥运会AI大模型应用的技术提供方,阿里云通过AI增强技术,包括实现创新的“子弹时间”高自由度回放技术,为观众带来沉浸式观赛体验。该技术利用高速摄像机阵列和云计算,实时捕捉比赛精彩瞬间,在官方服务器上3D重建并从多角度回放。部署在观众看台的高清摄像机会在运动员进入特定区域时捕捉瞬间,随后传输到云端进行复杂处理,营造出定格细节、旋转放大等极致体验效果。“子弹时间”将应用于多个体育赛事的14个场馆转播。此技术不仅提升了观众体验,也展示了AI在体育转播领域的潜力与创新。