MLE-bench

機械学習エンジニアリング能力を持つAIエージェントの評価ベンチマーク

一般製品生産性機械学習AIエージェント

MLE-benchは、OpenAIが開発したベンチマークで、AIエージェントの機械学習エンジニアリング能力を測定することを目的としています。Kaggleの75件の機械学習エンジニアリング関連コンペティションから多様な課題を集め、モデルのトレーニング、データセットの準備、実験の実行など、現実世界の機械学習エンジニアリングスキルをテストする包括的なテストスイートを提供します。各コンペティションには、Kaggleの公開ランキングデータに基づいてヒューマンベースラインが設定されています。オープンソースのエージェントフレームワークを使用して、複数の最先端言語モデルのこのベンチマークにおけるパフォーマンスを評価しました。その結果、最適な設定（OpenAIのo1-previewとAIDEフレームワークの組み合わせ）では、16.9％のコンペティションでKaggleの銅メダルレベルに達していることが明らかになりました。さらに、AIエージェントのリソース拡張の様々な形態や、事前学習データの汚染の影響についても研究しました。MLE-benchのベンチマークコードはオープンソース化されており、AIエージェントの機械学習エンジニアリング能力に関する今後の研究を促進するものです。

Best AI Websites & Tools

MLE-bench

MLE-bench 最新のトラフィック状況

MLE-bench 訪問数の傾向

MLE-bench 訪問地理的分布

MLE-bench トラフィックソース

MLE-bench 代替品

MLE-bench — 機械学習エンジニアリング能力を持つAIエージェントの評価ベンチマーク

Firefox翻訳モデル — Firefoxブラウザの翻訳機能向けに最適化された、CPUアクセラレーション対応のニューラル機械翻訳モデルです。

The Ultra-Scale Playbook — 超大規模システムの設計と最適化に特化したツールで、効率的なソリューションを提供します。

EasyWeb — EasyWebは、ブラウザと連携するAIエージェントの構築とデプロイのためのオープンなプラットフォームです。

Wren AI — オープンソースのSQL AIエージェント。テキストからSQLへの変換をシンプルにします。

Bakery — オープンソースAIモデルの微調整と収益化を支援するプラットフォーム。AIスタートアップ企業、機械学習エンジニア、研究者の方々を支援します。

vectrix-graphs — 多様なモデルの埋め込みを扱うグラフライブラリで、様々なモデルとデータタイプに対応した可視化をサポートします。

TangoFlux — 高効率なテキスト音声変換モデル

VidTok — マイクロソフトがオープンソースで公開した、先進的なビデオ分割器群

Valley 2.0 — テキスト、画像、動画データを処理する能力を向上させた、マルチモーダル大規模言語モデルです。

如意-Mini-7B — オープンソースの画像から動画への生成モデル

Q-RWKV-6 32B Instruct プレビュー — 複数の英語ベンチマークテストで最高記録を更新した、最も強力なRWKVモデルの変種です。

InternVL 2.5 — オープンソースのマルチモーダル大規模言語モデルシリーズ

Procyon AI 推論ベンチマーク for Android — AndroidデバイスのAI性能と品質を測定するベンチマークツール

Agentless — エージェントレスでソフトウェア開発上の問題を自動解決する手法

OLMo-2-1124-7B-SFT — 高性能英語テキスト生成モデル

混元视频 (HunyuanVideo) — テンセントがオープンソース化した大規模ビデオ生成モデルのトレーニングフレームワーク

Llama-3.1-Tulu-3-8B-DPO — 多様なタスクに対応可能な、高度なテキスト生成モデルです。

Neural Magic — AIモデルのデプロイと推論最適化のエキスパート

genmoai — オープンソースの動画生成モデル

sd3.5 — 高品質な画像生成のための軽量推理モデル

LibreFLUX — 蒸留処理を施していないオープンソースのFLUXモデル

Zamba2-7B — 高性能小型言語モデル

SLM_Survey — 小型言語モデル調査、計測、および洞察

Llama 3.2 — オープンソースのAIモデル。微調整、蒸留、展開が可能です。

Reflection Llama-3.1 70B — 世界最先端の大規模言語モデル（LLM）

OLMoE-1B-7B — 高効率・オープンソースの大規模言語モデル

RWKV v6 Finch 14B — RWKV v6 Finch 14Bは、長文処理に優れたオープンソースの大規模言語モデルです。

Cerebras Inference — 世界最速のAIリアルタイム推論ソリューション。

God Mode Animation — 2Dゲームアニメーション生成モデル