Ant Group, en colaboración con la Universidad de Pekín, ha lanzado DevOps-Eval, un conjunto de benchmarks para evaluar modelos de lenguaje extenso en el ámbito de DevOps. Este conjunto de benchmarks incluye 4850 preguntas de opción múltiple, distribuidas en 8 categorías: planificación, codificación, compilación, pruebas, lanzamiento, despliegue, operaciones y mantenimiento, y monitorización.
Además, se ha realizado una subdivisión específica para tareas de AIOps, añadiendo tareas como análisis de logs, detección de anomalías en series temporales, clasificación de series temporales y análisis de causa raíz. Los resultados de la evaluación muestran puntuaciones relativamente similares entre los diferentes modelos.
Ant Group ha declarado que continuará optimizando el conjunto de benchmarks, enriqueciendo el conjunto de datos de evaluación y centrándose en el ámbito de AIOps, además de incluir más modelos en la evaluación.