MLE-bench

机器学习工程能力的AI代理评估基准

普通产品生产力机器学习AI代理
MLE-bench是由OpenAI推出的一个基准测试,旨在衡量AI代理在机器学习工程方面的表现。该基准测试汇集了75个来自Kaggle的机器学习工程相关竞赛,形成了一套多样化的挑战性任务,测试了训练模型、准备数据集和运行实验等现实世界中的机器学习工程技能。通过Kaggle公开的排行榜数据,为每项竞赛建立了人类基准。使用开源代理框架评估了多个前沿语言模型在该基准上的表现,发现表现最佳的设置——OpenAI的o1-preview配合AIDE框架——在16.9%的竞赛中至少达到了Kaggle铜牌的水平。此外,还研究了AI代理的各种资源扩展形式以及预训练污染的影响。MLE-bench的基准代码已经开源,以促进未来对AI代理机器学习工程能力的理解。
打开网站

MLE-bench 最新流量情况

月总访问量

551146617

跳出率

57.47%

平均页面访问数

2.2

平均访问时长

00:01:46

MLE-bench 访问量趋势

MLE-bench 访问地理位置分布

MLE-bench 流量来源

MLE-bench 替代品