MLE-bench

Benchmark de evaluación de agentes de IA para la capacidad de ingeniería de aprendizaje automático

Producto ComúnProductividadAprendizaje automáticoAgente de IA

MLE-bench es un benchmark lanzado por OpenAI diseñado para medir el rendimiento de los agentes de IA en ingeniería de aprendizaje automático. Este benchmark recopila 75 concursos de ingeniería de aprendizaje automático de Kaggle, formando un conjunto diverso de tareas desafiantes que ponen a prueba las habilidades de ingeniería de aprendizaje automático del mundo real, como el entrenamiento de modelos, la preparación de conjuntos de datos y la ejecución de experimentos. Se ha establecido un benchmark humano para cada concurso utilizando los datos de la clasificación pública de Kaggle. Se evaluó el rendimiento de varios modelos de lenguaje de vanguardia en este benchmark utilizando un framework de agente de código abierto, encontrando que la configuración de mejor rendimiento —el modelo o1-preview de OpenAI junto con el framework AIDE— logró al menos el nivel de bronce de Kaggle en el 16.9% de los concursos. Además, se investigaron varias formas de ampliación de recursos para los agentes de IA y el impacto de la contaminación por preentrenamiento. El código del benchmark MLE-bench se ha publicado como código abierto para fomentar la comprensión futura de la capacidad de ingeniería de aprendizaje automático de los agentes de IA.

Best AI Websites & Tools

MLE-bench

MLE-bench Situación del tráfico más reciente

MLE-bench Tendencia de visitas

MLE-bench Distribución geográfica de las visitas

MLE-bench Fuentes de tráfico

MLE-bench Alternativas

MLE-bench — Benchmark de evaluación de agentes de IA para la capacidad de ingeniería de aprendizaje automático

Modelos de Traducción de Firefox — Modelo de traducción automática neuronal acelerado por CPU optimizado para la función de traducción del navegador Firefox.

El Manual de Sistemas Ultraescalables — Una herramienta enfocada en el diseño y optimización de sistemas ultraescalables, ofreciendo soluciones eficientes.

EasyWeb — EasyWeb es una plataforma abierta para construir e implementar agentes de IA que interactúan con el navegador.

Wren AI — Agente de IA de código abierto para SQL que simplifica la conversión de texto a SQL.

Bakery — Una plataforma online de ajuste fino y monetización de modelos de IA de código abierto, que ayuda a empresas emergentes de IA, ingenieros de aprendizaje automático e investigadores.

vectrix-graphs — Una biblioteca gráfica para incrustaciones de modelos múltiples, compatible con la visualización de varios modelos y tipos de datos.

TangoFlux — Modelo de generación de audio a partir de texto de alta eficiencia

VidTok — Familia de segmentadores de vídeo de código abierto de Microsoft

Valley 2.0 — Modelo de lenguaje grande multimodal que mejora el procesamiento de datos de texto, imágenes y vídeo.

Ruyi-Mini-7B — Modelo de generación de vídeo a partir de imágenes de código abierto

Q-RWKV-6 32B Instruct Vista previa — Variante de modelo RWKV más potente, superando varios benchmarks en inglés.

InternVL 2.5 — Serie de modelos lingüísticos grandes multimodales de código abierto

Agentless — Método sin agente para la resolución automática de problemas de desarrollo de software

OLMo-2-1124-7B-SFT — Modelo de generación de texto en inglés de alto rendimiento

HunyuanVideo — Marco de entrenamiento de modelos de generación de video a gran escala de código abierto de Tencent

Llama-3.1-Tulu-3-8B-DPO — Modelo avanzado de generación de texto, compatible con diversas tareas

Neural Magic — Expertos en optimización e implementación de modelos de IA

genmoai — Modelo de generación de video de código abierto

sd3.5 — Modelo de inferencia ligero para generar imágenes de alta calidad

LibreFLUX — Modelo FLUX abierto y destilizado

Zamba2-7B — Modelo de lenguaje pequeño de alto rendimiento

SLM_Survey — Investigación, medición y análisis de modelos lingüísticos pequeños

Llama 3.2 — Modelo de IA de código abierto, personalizable, destilable y desplegable.

Reflection Llama-3.1 70B — Modelo de lenguaje extenso (LLM) de código abierto líder mundial

OLMoE-1B-7B — Modelo de lenguaje extenso (LLM) eficiente y de código abierto

RWKV v6 Finch 14B — RWKV v6 Finch 14B, un modelo de lenguaje grande de código abierto, eficiente en el procesamiento de textos largos.

Inferencia Cerebras — Solución de inferencia de IA en tiempo real, líder mundial en velocidad.

God Mode Animation — Modelo de generación de animaciones 2D para videojuegos

Evidently AI — Plataforma de monitorización de aprendizaje automático y observabilidad de IA