Ant Group publica un benchmark de modelos grandes para el ámbito de DevOps

站长之家

Publicado elNoticias de IA · 2 minutos de lectura · Nov 2, 2023

Ant Group y la Universidad de Pekín lanzan DevOps-Eval

Ant Group, en colaboración con la Universidad de Pekín, ha lanzado DevOps-Eval, un conjunto de benchmarks para evaluar modelos de lenguaje extenso en el ámbito de DevOps. Este conjunto de benchmarks incluye 4850 preguntas de opción múltiple, distribuidas en 8 categorías: planificación, codificación, compilación, pruebas, lanzamiento, despliegue, operaciones y mantenimiento, y monitorización.

Además, se ha realizado una subdivisión específica para tareas de AIOps, añadiendo tareas como análisis de logs, detección de anomalías en series temporales, clasificación de series temporales y análisis de causa raíz. Los resultados de la evaluación muestran puntuaciones relativamente similares entre los diferentes modelos.

Ant Group ha declarado que continuará optimizando el conjunto de benchmarks, enriqueciendo el conjunto de datos de evaluación y centrándose en el ámbito de AIOps, además de incluir más modelos en la evaluación.

Plataforma de evaluación de modelos grandes CompassArena actualizada: nueva función Judge Copilot

CompassArena (arena de grandes modelos), la plataforma de evaluación de modelos grandes lanzada conjuntamente por el equipo de OpenCompass de Shanghai Artificial Intelligence Laboratory y ModelScope, ha recibido una actualización reciente para ofrecer a los usuarios una experiencia de evaluación de modelos más científica e integral. Desde su lanzamiento, la plataforma ha atraído a una gran cantidad de usuarios de la comunidad que han participado y contribuido con datos. Basándose en estos datos, CompassArena ha seguido optimizándose. Esta actualización incluye la nueva función Judge Copilot y mejoras en el algoritmo de clasificación.

Compass Arena, plataforma de evaluación de modelos grandes, añade una sección de competición para modelos multimodales

El equipo de OpenCompass de Shanghai AI Lab, en colaboración con ModelScope, ha lanzado Compass Multi-Modal Arena, una nueva sección de la plataforma de evaluación de modelos grandes centrada en modelos multimodales. Los usuarios pueden cargar una imagen y plantear una pregunta, permitiendo que dos modelos multimodales anónimos generen respuestas. Posteriormente, se realiza una evaluación subjetiva de la calidad del contenido generado para elegir el modelo con mejor rendimiento. La plataforma ofrece una interfaz fácil de usar y un banco de preguntas especial, cuyo contenido se detalla más adelante.

Investigación sobre el caos en la evaluación de modelos grandes: el tamaño de los parámetros no lo es todo

La cantidad de parámetros no es el único estándar para evaluar los modelos grandes; las diferencias en los conjuntos de evaluación provocan grandes diferencias en la clasificación; el aumento de la proporción de preguntas subjetivas también afecta a la clasificación; la imparcialidad de la evaluación es fácilmente cuestionable; las agencias de evaluación de terceros como OpenCompass y FlagEval están empezando a recibir atención; el mundo académico considera que también se deben tener en cuenta la robustez y la seguridad del modelo en múltiples dimensiones; la forma de evaluación realmente completa y eficaz aún se encuentra en fase de exploración.

Noticias de IA

Ant Group publica un benchmark de modelos grandes para el ámbito de DevOps

站长之家

Noticias de IA relacionadas recomendadas

Plataforma de evaluación de modelos grandes CompassArena actualizada: nueva función Judge Copilot

Compass Arena, plataforma de evaluación de modelos grandes, añade una sección de competición para modelos multimodales

Investigación sobre el caos en la evaluación de modelos grandes: el tamaño de los parámetros no lo es todo