Investigación sobre el caos en la evaluación de modelos grandes: el tamaño de los parámetros no lo es todo

36氪

Publicado elNoticias de IA · 2 minutos de lectura · Sep 25, 2023

Con la creciente popularidad de ChatGPT, se han lanzado varias listas de clasificación de modelos de lenguaje grandes, tanto nacionales como internacionales. Sin embargo, existe una gran disparidad en el ranking de modelos con parámetros similares en diferentes listas. Tanto la industria como el mundo académico consideran que esto se debe principalmente a las diferencias en los conjuntos de evaluación, y también a la creciente proporción de preguntas subjetivas, lo que genera dudas sobre la imparcialidad de la evaluación. Por lo tanto, instituciones de evaluación independientes como OpenCompass y FlagEval están recibiendo cada vez más atención. Sin embargo, la industria opina que para realizar una evaluación realmente completa y efectiva de los modelos de lenguaje grandes, es necesario considerar otras dimensiones como la robustez y la seguridad del modelo, y que este proceso aún se encuentra en fase de exploración.

Plataforma de evaluación de modelos grandes CompassArena actualizada: nueva función Judge Copilot

CompassArena (arena de grandes modelos), la plataforma de evaluación de modelos grandes lanzada conjuntamente por el equipo de OpenCompass de Shanghai Artificial Intelligence Laboratory y ModelScope, ha recibido una actualización reciente para ofrecer a los usuarios una experiencia de evaluación de modelos más científica e integral. Desde su lanzamiento, la plataforma ha atraído a una gran cantidad de usuarios de la comunidad que han participado y contribuido con datos. Basándose en estos datos, CompassArena ha seguido optimizándose. Esta actualización incluye la nueva función Judge Copilot y mejoras en el algoritmo de clasificación.

OpenAI lanza MLE-bench: un conjunto de evaluación para agentes de IA

En un estudio reciente, el equipo de investigación de OpenAI presentó MLE-bench, un nuevo conjunto de evaluación para evaluar el rendimiento de los agentes de IA en ingeniería de aprendizaje automático. Este estudio se centra específicamente en 75 competiciones de ingeniería de aprendizaje automático de Kaggle, con el objetivo de probar las diversas habilidades necesarias para los agentes en el mundo real, incluyendo el entrenamiento de modelos, la preparación de conjuntos de datos y la ejecución de experimentos. Para una mejor evaluación, el equipo de investigación utilizó datos de la clasificación pública de Kaggle para establecer una base para cada

Compass Arena, plataforma de evaluación de modelos grandes, añade una sección de competición para modelos multimodales

El equipo de OpenCompass de Shanghai AI Lab, en colaboración con ModelScope, ha lanzado Compass Multi-Modal Arena, una nueva sección de la plataforma de evaluación de modelos grandes centrada en modelos multimodales. Los usuarios pueden cargar una imagen y plantear una pregunta, permitiendo que dos modelos multimodales anónimos generen respuestas. Posteriormente, se realiza una evaluación subjetiva de la calidad del contenido generado para elegir el modelo con mejor rendimiento. La plataforma ofrece una interfaz fácil de usar y un banco de preguntas especial, cuyo contenido se detalla más adelante.

Noticias de IA

Investigación sobre el caos en la evaluación de modelos grandes: el tamaño de los parámetros no lo es todo

36氪

Noticias de IA relacionadas recomendadas

Plataforma de evaluación de modelos grandes CompassArena actualizada: nueva función Judge Copilot

OpenAI lanza MLE-bench: un conjunto de evaluación para agentes de IA

Compass Arena, plataforma de evaluación de modelos grandes, añade una sección de competición para modelos multimodales