MLE-bench

Benchmark de evaluación de agentes de IA para la capacidad de ingeniería de aprendizaje automático

Producto ComúnProductividadAprendizaje automáticoAgente de IA
MLE-bench es un benchmark lanzado por OpenAI diseñado para medir el rendimiento de los agentes de IA en ingeniería de aprendizaje automático. Este benchmark recopila 75 concursos de ingeniería de aprendizaje automático de Kaggle, formando un conjunto diverso de tareas desafiantes que ponen a prueba las habilidades de ingeniería de aprendizaje automático del mundo real, como el entrenamiento de modelos, la preparación de conjuntos de datos y la ejecución de experimentos. Se ha establecido un benchmark humano para cada concurso utilizando los datos de la clasificación pública de Kaggle. Se evaluó el rendimiento de varios modelos de lenguaje de vanguardia en este benchmark utilizando un framework de agente de código abierto, encontrando que la configuración de mejor rendimiento —el modelo o1-preview de OpenAI junto con el framework AIDE— logró al menos el nivel de bronce de Kaggle en el 16.9% de los concursos. Además, se investigaron varias formas de ampliación de recursos para los agentes de IA y el impacto de la contaminación por preentrenamiento. El código del benchmark MLE-bench se ha publicado como código abierto para fomentar la comprensión futura de la capacidad de ingeniería de aprendizaje automático de los agentes de IA.
Abrir sitio web

MLE-bench Situación del tráfico más reciente

Total de visitas mensuales

505000892

Tasa de rebote

59.23%

Páginas promedio por visita

2.2

Duración promedio de la visita

00:01:47

MLE-bench Tendencia de visitas

MLE-bench Distribución geográfica de las visitas

MLE-bench Fuentes de tráfico

MLE-bench Alternativas