蚂蚁集团联合北京大学发布了面向 DevOps 领域的大语言模型评测基准 ——DevOps-Eval。该评测基准包含了计划、编码、构建、测试、发布、部署、运维和监控等 8 个类别的选择题,共计 4850 道题目。此外,还针对 AIOps 任务做了细分,并添加了日志解析、时序异常检测、时序分类和根因分析等任务。评测结果显示各模型得分相差不大。蚂蚁集团表示,未来将继续优化基准,丰富评测数据集,重点关注 AIOps 领域,并增加更多的评测模型。