A Ant Group, em conjunto com a Universidade de Pequim, lançou o DevOps-Eval, um benchmark de modelos de linguagem grandes para a área de DevOps. Este benchmark inclui 4850 questões de múltipla escolha, distribuídas em 8 categorias: planejamento, codificação, construção, testes, lançamento, implantação, operações e manutenção e monitoramento.
Além disso, foram adicionadas tarefas específicas para AIOps, incluindo análise de logs, detecção de anomalias em séries temporais, classificação de séries temporais e análise de causa raiz. Os resultados da avaliação mostraram pontuações relativamente próximas entre os diferentes modelos.
A Ant Group afirmou que continuará otimizando o benchmark, enriquecendo o conjunto de dados de avaliação, focando principalmente na área de AIOps e incluindo mais modelos na avaliação.