Grupo Ant Financial lança benchmark de avaliação de modelos grandes para a área de DevOps

站长之家

Publicado emNotícias e Informações de IA · 2 minutos de leitura · Nov 2, 2023

Avaliação de Modelo de Linguagem Grande para DevOps

A Ant Group, em conjunto com a Universidade de Pequim, lançou o DevOps-Eval, um benchmark de modelos de linguagem grandes para a área de DevOps. Este benchmark inclui 4850 questões de múltipla escolha, distribuídas em 8 categorias: planejamento, codificação, construção, testes, lançamento, implantação, operações e manutenção e monitoramento.

Além disso, foram adicionadas tarefas específicas para AIOps, incluindo análise de logs, detecção de anomalias em séries temporais, classificação de séries temporais e análise de causa raiz. Os resultados da avaliação mostraram pontuações relativamente próximas entre os diferentes modelos.

A Ant Group afirmou que continuará otimizando o benchmark, enriquecendo o conjunto de dados de avaliação, focando principalmente na área de AIOps e incluindo mais modelos na avaliação.

Investigação sobre a desordem na avaliação de modelos grandes: o tamanho do parâmetro não é tudo

A quantidade de parâmetros não é o único critério para avaliar grandes modelos; diferentes conjuntos de avaliação levam a grandes diferenças na classificação; o aumento da proporção de questões subjetivas também afeta a classificação; a imparcialidade da avaliação é facilmente questionada; Organizações de avaliação de terceiros, como OpenCompass e FlagEval, estão começando a receber atenção; O meio acadêmico acredita que também devem ser considerados a robustez e a segurança do modelo, entre outras dimensões; Um método de avaliação verdadeiramente abrangente e eficaz ainda está em exploração.

Notícias e Informações de IA

Grupo Ant Financial lança benchmark de avaliação de modelos grandes para a área de DevOps

站长之家

Notícias de IA Relacionadas Recomendadas

Investigação sobre a desordem na avaliação de modelos grandes: o tamanho do parâmetro não é tudo