MLE-Bench

Benchmark zur Bewertung von KI-Agenten im Hinblick auf ihre Fähigkeiten im Bereich Machine Learning Engineering

Normales ProduktProduktivitätMaschinelles LernenKI-Agenten
MLE-Bench ist ein von OpenAI entwickelter Benchmark, der die Leistungsfähigkeit von KI-Agenten im Bereich Machine Learning Engineering misst. Der Benchmark umfasst 75 Machine-Learning-Engineering-Wettbewerbe von Kaggle und bietet so eine vielfältige Auswahl an herausfordernden Aufgaben. Getestet werden dabei praxisrelevante Fähigkeiten wie Modelltraining, Datenaufbereitung und Durchführung von Experimenten. Anhand der öffentlich zugänglichen Ranglisten von Kaggle wurde für jeden Wettbewerb ein menschlicher Benchmark erstellt. Mittels eines Open-Source-Agenten-Frameworks wurde die Leistung mehrerer aktueller Sprachmodelle auf diesem Benchmark evaluiert. Dabei zeigte sich, dass die beste Konfiguration – OpenAIs o1-preview in Verbindung mit dem AIDE-Framework – in 16,9 % der Wettbewerbe mindestens das Niveau einer Kaggle-Bronzemedaille erreichte. Zusätzlich wurden verschiedene Formen der Ressourcenallokation für KI-Agenten sowie der Einfluss von Pre-Training-Kontamination untersucht. Der MLE-Bench-Benchmark-Code wurde Open Source veröffentlicht, um zukünftige Forschung zur KI-Agenten-Leistung im Bereich Machine Learning Engineering zu fördern.
Website öffnen

MLE-Bench Neueste Verkehrssituation

Monatliche Gesamtbesuche

505000892

Absprungrate

59.23%

Durchschnittliche Seiten pro Besuch

2.2

Durchschnittliche Besuchsdauer

00:01:47

MLE-Bench Besuchstrend

MLE-Bench Geografische Verteilung der Besuche

MLE-Bench Traffic-Quellen

MLE-Bench Alternativen