MLE-bench
機械学習エンジニアリング能力を持つAIエージェントの評価ベンチマーク
一般製品生産性機械学習AIエージェント
MLE-benchは、OpenAIが開発したベンチマークで、AIエージェントの機械学習エンジニアリング能力を測定することを目的としています。Kaggleの75件の機械学習エンジニアリング関連コンペティションから多様な課題を集め、モデルのトレーニング、データセットの準備、実験の実行など、現実世界の機械学習エンジニアリングスキルをテストする包括的なテストスイートを提供します。各コンペティションには、Kaggleの公開ランキングデータに基づいてヒューマンベースラインが設定されています。オープンソースのエージェントフレームワークを使用して、複数の最先端言語モデルのこのベンチマークにおけるパフォーマンスを評価しました。その結果、最適な設定(OpenAIのo1-previewとAIDEフレームワークの組み合わせ)では、16.9%のコンペティションでKaggleの銅メダルレベルに達していることが明らかになりました。さらに、AIエージェントのリソース拡張の様々な形態や、事前学習データの汚染の影響についても研究しました。MLE-benchのベンチマークコードはオープンソース化されており、AIエージェントの機械学習エンジニアリング能力に関する今後の研究を促進するものです。
MLE-bench 最新のトラフィック状況
月間総訪問数
505000892
直帰率
59.23%
平均ページ/訪問
2.2
平均訪問時間
00:01:47