En un estudio reciente, el equipo de investigación de OpenAI presentó MLE-bench, un nuevo conjunto de pruebas de referencia diseñado para evaluar el rendimiento de los agentes de IA en ingeniería de aprendizaje automático.

Este estudio se centra específicamente en 75 competiciones de ingeniería de aprendizaje automático de Kaggle, con el objetivo de probar una variedad de habilidades necesarias en el mundo real, incluyendo el entrenamiento de modelos, la preparación de conjuntos de datos y la ejecución de experimentos.

image.png

Para una mejor evaluación, el equipo de investigación utilizó los datos de la clasificación pública de Kaggle para establecer un punto de referencia humano para cada competición. En los experimentos, probaron varios modelos de lenguaje de vanguardia utilizando una arquitectura de agente de código abierto. Los resultados mostraron que la configuración de mejor rendimiento —OpenAI o1-preview junto con la arquitectura AIDE— alcanzó el nivel de medalla de bronce de Kaggle en el 16.9% de las competiciones.

Además, el equipo de investigación exploró a fondo las formas de escalar los recursos de los agentes de IA e investigó el impacto de la contaminación por preentrenamiento en los resultados. Destacan que estos hallazgos proporcionan una base para comprender mejor las capacidades de los agentes de IA en ingeniería de aprendizaje automático. Para fomentar futuras investigaciones, el equipo también ha hecho de código abierto el conjunto de pruebas de referencia para que lo utilicen otros investigadores.

El lanzamiento de este estudio marca un avance importante en el campo del aprendizaje automático, especialmente en cómo evaluar y mejorar las capacidades de ingeniería de los agentes de IA. Los científicos esperan que MLE-bench proporcione estándares de evaluación y bases prácticas más científicas para el desarrollo de la tecnología de IA.

Enlace al proyecto: https://openai.com/index/mle-bench/

Puntos clave:

🌟 MLE-bench es un nuevo conjunto de pruebas de referencia diseñado para evaluar las capacidades de ingeniería de aprendizaje automático de los agentes de IA.

🤖 El estudio abarca 75 competiciones de Kaggle, probando las capacidades de los agentes para entrenar modelos y procesar datos.

📊 La combinación de OpenAI o1-preview con la arquitectura AIDE alcanzó el nivel de medalla de bronce de Kaggle en el 16.9% de las competiciones.