MLE-Bench
Benchmark zur Bewertung von KI-Agenten im Hinblick auf ihre Fähigkeiten im Bereich Machine Learning Engineering
Normales ProduktProduktivitätMaschinelles LernenKI-Agenten
MLE-Bench ist ein von OpenAI entwickelter Benchmark, der die Leistungsfähigkeit von KI-Agenten im Bereich Machine Learning Engineering misst. Der Benchmark umfasst 75 Machine-Learning-Engineering-Wettbewerbe von Kaggle und bietet so eine vielfältige Auswahl an herausfordernden Aufgaben. Getestet werden dabei praxisrelevante Fähigkeiten wie Modelltraining, Datenaufbereitung und Durchführung von Experimenten. Anhand der öffentlich zugänglichen Ranglisten von Kaggle wurde für jeden Wettbewerb ein menschlicher Benchmark erstellt. Mittels eines Open-Source-Agenten-Frameworks wurde die Leistung mehrerer aktueller Sprachmodelle auf diesem Benchmark evaluiert. Dabei zeigte sich, dass die beste Konfiguration – OpenAIs o1-preview in Verbindung mit dem AIDE-Framework – in 16,9 % der Wettbewerbe mindestens das Niveau einer Kaggle-Bronzemedaille erreichte. Zusätzlich wurden verschiedene Formen der Ressourcenallokation für KI-Agenten sowie der Einfluss von Pre-Training-Kontamination untersucht. Der MLE-Bench-Benchmark-Code wurde Open Source veröffentlicht, um zukünftige Forschung zur KI-Agenten-Leistung im Bereich Machine Learning Engineering zu fördern.
MLE-Bench Neueste Verkehrssituation
Monatliche Gesamtbesuche
505000892
Absprungrate
59.23%
Durchschnittliche Seiten pro Besuch
2.2
Durchschnittliche Besuchsdauer
00:01:47