アリババグループと北京大学は、DevOps分野に特化した大規模言語モデルの評価基準「DevOps-Eval」を発表しました。
この評価基準は、計画、コーディング、ビルド、テスト、リリース、デプロイ、運用、監視の8つのカテゴリからなる4850問の選択問題で構成されています。さらに、AIOpsタスクを詳細に分類し、ログ解析、時系列異常検知、時系列分類、根本原因分析などのタスクを追加しました。
評価結果によると、各モデルのスコアに大きな差はありませんでした。
アリババグループは、今後、評価基準の最適化、評価データセットの充実、特にAIOps分野への注力、そしてより多くのモデルの評価を追加していくと述べています。