文章分析了当前大模型评测体系中的“跑分乱象”,称大模型榜单广泛存在“家家第一”的情况。现有的开源跑分数据集会引发“刷题”现象;而封闭的私有数据集又会影响公平性。此外,部分榜单的评测维度也不够科学全面。文章建议建立权威的评测体系,开源评测工具与流程以保证公平,但评测数据集则采用开放历史+封闭正式的模式。此外,大模型的商业化远比模型的参数和榜单排名更为重要。
文章分析了当前大模型评测体系中的“跑分乱象”,称大模型榜单广泛存在“家家第一”的情况。现有的开源跑分数据集会引发“刷题”现象;而封闭的私有数据集又会影响公平性。此外,部分榜单的评测维度也不够科学全面。文章建议建立权威的评测体系,开源评测工具与流程以保证公平,但评测数据集则采用开放历史+封闭正式的模式。此外,大模型的商业化远比模型的参数和榜单排名更为重要。
上海人工智能实验室司南OpenCompass团队与魔搭ModelScope联合推出的大模型评测平台CompassArena(大模型竞技场)近日迎来了新升级,旨在为用户提供更科学、全面的模型评估体验。自上线以来,该平台吸引了大量社区用户参与并贡献数据,基于这些数据,CompassArena不断优化,此次升级包括全新Judge Copilot功能和榜单算法的改进,以及新增20多个全新模型。
近日,北京零一万物信息技术有限公司与华为技术有限公司在北京举行了签约仪式,正式启动基于华为昇腾硬件的原生大模型应用开发。这一合作将结合双方的技术优势,着力于人工智能在多个行业中的应用,特别是在金融、政务、制造、能源、交通和运营商等领域。此次合作的核心在于零一万物将利用华为的昇腾硬件底座、昇腾异构计算架构(CANN)、昇思 MindSpore AI 框架以及 MindIE 推理引擎,开发一系列原生大模型应用。该项目旨在构建更高效的 AI 智能体(AI-Agents),为各行业提供更加智
上海人工智能实验室的司南 OpenCompass 团队与魔搭 ModelScope 合作,推出了 Compass Multi-Modal Arena,这是一个大模型评测平台的新版块,专注于多模态大模型。用户可通过上传图像并输入问题,让两个匿名多模态大模型生成答案,然后基于生成内容的质量进行主观评估,选择表现更佳的模型。平台提供简单易用的界面和特色题库,题库侧重于主观视觉问答任务,如迷因理解、艺术品赏析和摄影作品赏析。此平台旨在评估多模态大模型在主观任务上的性能和用户体验,并已向公众开放。
阿里云在万网焕新发布会上宣布了其域名产品服务的AI化改造,并推出了基于通义大模型的首个域名AI应用。用户现在可以通过输入品牌信息和所属行业,利用AI智能起名功能一键生成创意域名。AI将进行语义解析,评估域名含义,并筛选出可用选项。