Die Ant Group und die Peking Universität haben gemeinsam DevOps-Eval veröffentlicht, einen neuen Bewertungsmaßstab für große Sprachmodelle im DevOps-Bereich. Dieser Benchmark umfasst 4850 Multiple-Choice-Fragen, aufgeteilt in acht Kategorien: Planung, Codierung, Build, Test, Release, Deployment, Betrieb und Monitoring.
Zusätzlich wurden AIOps-Aufgaben detailliert spezifiziert und um Aufgaben wie Log-Analyse, zeitreihenbasierte Anomalieerkennung, zeitreihenbasierte Klassifizierung und Root-Cause-Analyse erweitert. Die Ergebnisse zeigen nur geringe Unterschiede in den Punktzahlen der verschiedenen Modelle.
Die Ant Group erklärte, dass der Benchmark zukünftig weiter optimiert und der Datensatz erweitert werden soll. Der Fokus liegt dabei auf dem AIOps-Bereich und der Einbeziehung weiterer Modelle in die Bewertung.