MLE-bench
Benchmark de evaluación de agentes de IA para la capacidad de ingeniería de aprendizaje automático
Producto ComúnProductividadAprendizaje automáticoAgente de IA
MLE-bench es un benchmark lanzado por OpenAI diseñado para medir el rendimiento de los agentes de IA en ingeniería de aprendizaje automático. Este benchmark recopila 75 concursos de ingeniería de aprendizaje automático de Kaggle, formando un conjunto diverso de tareas desafiantes que ponen a prueba las habilidades de ingeniería de aprendizaje automático del mundo real, como el entrenamiento de modelos, la preparación de conjuntos de datos y la ejecución de experimentos. Se ha establecido un benchmark humano para cada concurso utilizando los datos de la clasificación pública de Kaggle. Se evaluó el rendimiento de varios modelos de lenguaje de vanguardia en este benchmark utilizando un framework de agente de código abierto, encontrando que la configuración de mejor rendimiento —el modelo o1-preview de OpenAI junto con el framework AIDE— logró al menos el nivel de bronce de Kaggle en el 16.9% de los concursos. Además, se investigaron varias formas de ampliación de recursos para los agentes de IA y el impacto de la contaminación por preentrenamiento. El código del benchmark MLE-bench se ha publicado como código abierto para fomentar la comprensión futura de la capacidad de ingeniería de aprendizaje automático de los agentes de IA.
MLE-bench Situación del tráfico más reciente
Total de visitas mensuales
505000892
Tasa de rebote
59.23%
Páginas promedio por visita
2.2
Duración promedio de la visita
00:01:47