MLE-bench

Benchmark de avaliação de agentes de IA para capacidade de engenharia de aprendizado de máquina

Produto ComumProdutividadeAprendizado de MáquinaAgentes de IA
O MLE-bench é um benchmark lançado pela OpenAI para medir o desempenho de agentes de IA em tarefas de engenharia de aprendizado de máquina. Este benchmark reúne 75 competições de engenharia de aprendizado de máquina do Kaggle, criando um conjunto diversificado de desafios que testam habilidades do mundo real, como treinamento de modelos, preparação de conjuntos de dados e execução de experimentos. Um benchmark humano foi estabelecido para cada competição usando dados de classificação pública do Kaggle. Avaliamos o desempenho de vários modelos de linguagem de ponta neste benchmark usando um framework de agente de código aberto, descobrindo que a configuração de melhor desempenho – o o1-preview da OpenAI em conjunto com o framework AIDE – alcançou pelo menos o nível de bronze do Kaggle em 16,9% das competições. Além disso, investigamos várias formas de extensão de recursos para agentes de IA e o impacto da contaminação de pré-treinamento. O código-fonte do MLE-bench foi disponibilizado publicamente para promover a compreensão futura da capacidade de engenharia de aprendizado de máquina de agentes de IA.
Abrir Site

MLE-bench Situação do Tráfego Mais Recente

Total de Visitas Mensais

505000892

Taxa de Rejeição

59.23%

Média de Páginas por Visita

2.2

Duração Média da Visita

00:01:47

MLE-bench Tendência de Visitas

MLE-bench Distribuição Geográfica das Visitas

MLE-bench Fontes de Tráfego

MLE-bench Alternativas