MLE-bench
Benchmark de avaliação de agentes de IA para capacidade de engenharia de aprendizado de máquina
Produto ComumProdutividadeAprendizado de MáquinaAgentes de IA
O MLE-bench é um benchmark lançado pela OpenAI para medir o desempenho de agentes de IA em tarefas de engenharia de aprendizado de máquina. Este benchmark reúne 75 competições de engenharia de aprendizado de máquina do Kaggle, criando um conjunto diversificado de desafios que testam habilidades do mundo real, como treinamento de modelos, preparação de conjuntos de dados e execução de experimentos. Um benchmark humano foi estabelecido para cada competição usando dados de classificação pública do Kaggle. Avaliamos o desempenho de vários modelos de linguagem de ponta neste benchmark usando um framework de agente de código aberto, descobrindo que a configuração de melhor desempenho – o o1-preview da OpenAI em conjunto com o framework AIDE – alcançou pelo menos o nível de bronze do Kaggle em 16,9% das competições. Além disso, investigamos várias formas de extensão de recursos para agentes de IA e o impacto da contaminação de pré-treinamento. O código-fonte do MLE-bench foi disponibilizado publicamente para promover a compreensão futura da capacidade de engenharia de aprendizado de máquina de agentes de IA.
MLE-bench Situação do Tráfego Mais Recente
Total de Visitas Mensais
505000892
Taxa de Rejeição
59.23%
Média de Páginas por Visita
2.2
Duração Média da Visita
00:01:47