MLE-bench

机器学习工程能力的AI代理评估基准

普通产品生产力机器学习AI代理

MLE-bench是由OpenAI推出的一个基准测试，旨在衡量AI代理在机器学习工程方面的表现。该基准测试汇集了75个来自Kaggle的机器学习工程相关竞赛，形成了一套多样化的挑战性任务，测试了训练模型、准备数据集和运行实验等现实世界中的机器学习工程技能。通过Kaggle公开的排行榜数据，为每项竞赛建立了人类基准。使用开源代理框架评估了多个前沿语言模型在该基准上的表现，发现表现最佳的设置——OpenAI的o1-preview配合AIDE框架——在16.9%的竞赛中至少达到了Kaggle铜牌的水平。此外，还研究了AI代理的各种资源扩展形式以及预训练污染的影响。MLE-bench的基准代码已经开源，以促进未来对AI代理机器学习工程能力的理解。

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图

MLE-bench

MLE-bench 最新流量情况

MLE-bench 访问量趋势

MLE-bench 访问地理位置分布

MLE-bench 流量来源

MLE-bench 替代品

MLE-bench — 机器学习工程能力的AI代理评估基准

Procyon AI Inference Benchmark for Android — 衡量Android设备AI性能和质量的基准测试工具

Cheating LLM Benchmarks — 研究项目，探索自动语言模型基准测试中的作弊行为。

LAMDA-TALENT — 综合表格数据学习工具箱和基准测试

LMSYS Chatbot Arena Leaderboard — 大型语言模型 (LLM) 性能评测的众包开放平台

DeepSeek-V3-0324 — 一个强大的文本生成模型，适用于多种对话应用。

RF-DETR — RF-DETR 是由 Roboflow 开发的实时目标检测模型。

LHM — 高保真可动画 3D 人类重建模型，快速生成动画角色。

Pruna — Pruna 是一个模型优化框架，帮助开发者快速高效交付模型。

SpatialLM — SpatialLM 是一个用于空间理解的大语言模型。

Orpheus TTS — 一个开源文本转语音系统，致力于实现人类语音的自然化。

Firefox Translations Models — 为Firefox浏览器翻译功能优化的CPU加速神经机器翻译模型。

Elimination Game — 一种测试大语言模型在复杂社交博弈中智能性的基准测试框架，灵感来源于‘狼人杀’游戏。

mahilo — 一个用于集成不同框架AI代理的通用平台，支持实时通信和人类监督。

Lemni — 通过Lemni，您可以快速设置自定义AI代理，让每一次客户互动都保持个性化。

Data Science Agent in Colab — 基于 Gemini 的 Colab 数据科学助手，可自动生成完整的 Colab 笔记本代码。

3FS — 3FS是一个高性能分布式文件系统，专为AI训练和推理工作负载设计。

M2RAG — 用于多模态上下文中的检索增强生成的基准测试代码库。

Thunder Compute — 提供全球最便宜的GPU云服务，助力自托管AI/ML开发。

olmOCR — olmOCR是一个用于将PDF线性化以用于LLM数据集训练的工具包。

TensorPool — TensorPool 是一个简化机器学习模型训练的云 GPU 平台。

The Ultra-Scale Playbook — 一个专注于超大规模系统设计和优化的工具，提供高效解决方案。

ZeroBench — ZeroBench 是一个针对当代大型多模态模型的高难度视觉基准测试。

Joule Agents — SAP推出的Joule Agents通过AI技术优化企业跨功能流程，提升业务效率。

SWE-Lancer — SWE-Lancer 是一个包含 1400 多个自由软件工程任务的基准测试，总价值 100 万美元。

EasyWeb — EasyWeb是一个用于构建和部署与浏览器交互的AI代理的开放平台。

Heron — Heron的AI技术可自动化处理文档密集型工作，提升工作效率。

DeepResearch123 — AI研究资源导航网站，提供AI研究资源、文档和实践案例

Humanity's Last Exam — Humanity's Last Exam 是一个用于衡量大型语言模型能力的多模态基准测试。

finbar — 提供全球基础金融数据，快速整合到模型中，助力现代金融分析师高效工作。