Eine kürzlich durchgeführte Studie des OpenAI-Teams stellte MLE-bench vor, einen neuen Benchmark zur Bewertung der Fähigkeiten von KI-Agenten im Bereich des Machine Learning Engineerings.

Die Studie konzentriert sich auf 75 Machine-Learning-Wettbewerbe von Kaggle und zielt darauf ab, die Fähigkeiten von Agenten in verschiedenen realitätsnahen Aufgaben zu testen, darunter Modelltraining, Datenvorbereitung und Experimentierläufe.

image.png

Zur Bewertung nutzte das Team die öffentlichen Ranglisten von Kaggle, um einen menschlichen Benchmark für jeden Wettbewerb festzulegen. Im Experiment wurden verschiedene hochmoderne Sprachmodelle mit einer Open-Source-Agentenarchitektur getestet. Die beste Konfiguration – OpenAIs o1-preview in Kombination mit der AIDE-Architektur – erreichte in 16,9 % der Wettbewerbe das Niveau einer Kaggle-Bronzemedaille.

Darüber hinaus untersuchte das Team die Skalierbarkeit von KI-Agenten und den Einfluss von Pre-Training auf die Ergebnisse. Die Ergebnisse liefern wichtige Erkenntnisse zum Verständnis der Fähigkeiten von KI-Agenten im Machine Learning Engineering. Um zukünftige Forschung zu fördern, wurde der Code des Benchmarks als Open Source veröffentlicht.

Diese Studie markiert einen wichtigen Fortschritt im Bereich des Machine Learning, insbesondere bei der Bewertung und Verbesserung der Engineering-Fähigkeiten von KI-Agenten. Die Wissenschaftler hoffen, dass MLE-bench wissenschaftlich fundierte Bewertungsstandards und praktische Grundlagen für die Entwicklung von KI-Technologien liefern wird.

Projektseite: https://openai.com/index/mle-bench/

Wichtigste Punkte:

🌟 MLE-bench ist ein neuer Benchmark zur Bewertung der Machine-Learning-Engineering-Fähigkeiten von KI-Agenten.

🤖 Die Studie umfasst 75 Kaggle-Wettbewerbe und testet die Fähigkeiten der Agenten beim Modelltraining und der Datenverarbeitung.

📊 Die Kombination aus OpenAIs o1-preview und der AIDE-Architektur erreichte in 16,9 % der Wettbewerbe das Niveau einer Kaggle-Bronzemedaille.