文章分析了当前大模型评测体系中的“跑分乱象”,称大模型榜单广泛存在“家家第一”的情况。现有的开源跑分数据集会引发“刷题”现象;而封闭的私有数据集又会影响公平性。此外,部分榜单的评测维度也不够科学全面。文章建议建立权威的评测体系,开源评测工具与流程以保证公平,但评测数据集则采用开放历史+封闭正式的模式。此外,大模型的商业化远比模型的参数和榜单排名更为重要。
文章分析了当前大模型评测体系中的“跑分乱象”,称大模型榜单广泛存在“家家第一”的情况。现有的开源跑分数据集会引发“刷题”现象;而封闭的私有数据集又会影响公平性。此外,部分榜单的评测维度也不够科学全面。文章建议建立权威的评测体系,开源评测工具与流程以保证公平,但评测数据集则采用开放历史+封闭正式的模式。此外,大模型的商业化远比模型的参数和榜单排名更为重要。
在人工智能领域,大语言模型的"幻觉问题"一直是困扰业界的关键挑战。近日,一项基于HHEM-2.1-Open评估体系的测试结果显示,智谱AI旗下的GLM-4-9B模型交出了一份令人瞩目的成绩单。测试数据显示,在参与评估的85个大语言模型中,GLM-4-9B以98.7%的事实一致性率和100%的回答率摘得桂冠。特别值得关注的是,该模型的幻觉率仅为1.3%,这一成绩不仅位居榜首,更是超越了行业巨头OpenAI的GPT系列和Google的Gemini系列模型。图源备注:图片由AI生成,图片授权服务商Midjourney这一突破性成果标志着中国大
在 AI 时代,企业们不仅需要关注模型的参数,更加重视其应用价值。随着2024年大模型中标项目数量激增至1520个,科大讯飞在北京中关村召开了 AI 服务市场行业伙伴生态大会,汇聚了数百家企业代表,共同探讨大模型技术的前沿趋势及应用实践。科大讯飞高级副总裁于继栋指出,AI 服务市场致力于推动产业升级,并为 AI 焕新构建了全新的行业增长模式。自2010年起,科大讯飞就通过开放平台与全球开发者共享最新 AI 技术,并在2018年推出了 AI 服务市场,以连接供需、推动产业发展。如今,
在科技不断发展的背景下,AI 眼镜的热潮已在国内外迅速掀起。2024年1月7日,雷鸟创新公司正式发布了首款搭载阿里通义定制意图识别大模型的雷鸟 V3AI 拍摄眼镜。这一产品的发布标志着国内首次实现大模型与 AI 眼镜硬件的定制合作,旨在加速端侧模型在 AI 眼镜上的应用落地。此次发布会强调,AI 眼镜市场的快速增长受到 Meta 和雷朋等公司推出的第二代拍摄眼镜的影响。雷鸟创始人李宏伟表示,预计2025年将成为智能眼镜的 “世纪大战之年”。业内分析师指出,虽然大模型与 AI 眼镜结合
上海人工智能实验室司南OpenCompass团队与魔搭ModelScope联合推出的大模型评测平台CompassArena(大模型竞技场)近日迎来了新升级,旨在为用户提供更科学、全面的模型评估体验。自上线以来,该平台吸引了大量社区用户参与并贡献数据,基于这些数据,CompassArena不断优化,此次升级包括全新Judge Copilot功能和榜单算法的改进,以及新增20多个全新模型。