MLE-bench

機械学習エンジニアリング能力を持つAIエージェントの評価ベンチマーク

一般製品生産性機械学習AIエージェント
MLE-benchは、OpenAIが開発したベンチマークで、AIエージェントの機械学習エンジニアリング能力を測定することを目的としています。Kaggleの75件の機械学習エンジニアリング関連コンペティションから多様な課題を集め、モデルのトレーニング、データセットの準備、実験の実行など、現実世界の機械学習エンジニアリングスキルをテストする包括的なテストスイートを提供します。各コンペティションには、Kaggleの公開ランキングデータに基づいてヒューマンベースラインが設定されています。オープンソースのエージェントフレームワークを使用して、複数の最先端言語モデルのこのベンチマークにおけるパフォーマンスを評価しました。その結果、最適な設定(OpenAIのo1-previewとAIDEフレームワークの組み合わせ)では、16.9%のコンペティションでKaggleの銅メダルレベルに達していることが明らかになりました。さらに、AIエージェントのリソース拡張の様々な形態や、事前学習データの汚染の影響についても研究しました。MLE-benchのベンチマークコードはオープンソース化されており、AIエージェントの機械学習エンジニアリング能力に関する今後の研究を促進するものです。
ウェブサイトを開く

MLE-bench 最新のトラフィック状況

月間総訪問数

505000892

直帰率

59.23%

平均ページ/訪問

2.2

平均訪問時間

00:01:47

MLE-bench 訪問数の傾向

MLE-bench 訪問地理的分布

MLE-bench トラフィックソース

MLE-bench 代替品