MLE-Bench

Benchmark zur Bewertung von KI-Agenten im Hinblick auf ihre Fähigkeiten im Bereich Machine Learning Engineering

Normales ProduktProduktivitätMaschinelles LernenKI-Agenten

MLE-Bench ist ein von OpenAI entwickelter Benchmark, der die Leistungsfähigkeit von KI-Agenten im Bereich Machine Learning Engineering misst. Der Benchmark umfasst 75 Machine-Learning-Engineering-Wettbewerbe von Kaggle und bietet so eine vielfältige Auswahl an herausfordernden Aufgaben. Getestet werden dabei praxisrelevante Fähigkeiten wie Modelltraining, Datenaufbereitung und Durchführung von Experimenten. Anhand der öffentlich zugänglichen Ranglisten von Kaggle wurde für jeden Wettbewerb ein menschlicher Benchmark erstellt. Mittels eines Open-Source-Agenten-Frameworks wurde die Leistung mehrerer aktueller Sprachmodelle auf diesem Benchmark evaluiert. Dabei zeigte sich, dass die beste Konfiguration – OpenAIs o1-preview in Verbindung mit dem AIDE-Framework – in 16,9 % der Wettbewerbe mindestens das Niveau einer Kaggle-Bronzemedaille erreichte. Zusätzlich wurden verschiedene Formen der Ressourcenallokation für KI-Agenten sowie der Einfluss von Pre-Training-Kontamination untersucht. Der MLE-Bench-Benchmark-Code wurde Open Source veröffentlicht, um zukünftige Forschung zur KI-Agenten-Leistung im Bereich Machine Learning Engineering zu fördern.

Best AI Websites & Tools

MLE-Bench

MLE-Bench Neueste Verkehrssituation

MLE-Bench Besuchstrend

MLE-Bench Geografische Verteilung der Besuche

MLE-Bench Traffic-Quellen

MLE-Bench Alternativen

MLE-Bench — Benchmark zur Bewertung von KI-Agenten im Hinblick auf ihre Fähigkeiten im Bereich Machine Learning Engineering

Firefox Translations Models — Für die Übersetzungsfunktion des Firefox-Browsers optimierte, CPU-beschleunigte neuronale maschinelle Übersetzung.

Das Ultra-Scale Playbook — Ein Tool zur Optimierung und Gestaltung von hochskalierten Systemen, das effiziente Lösungen bietet.

Bakery — Eine Open-Source-Plattform zum Feintuning und zur Monetarisierung von KI-Modellen, die KI-Startups, Machine-Learning-Ingenieuren und Forschern unterstützt.

vectrix-graphs — Eine Bibliothek für die grafische Darstellung von Multi-Modell-Einbettungen, die die Visualisierung verschiedener Modelle und Datentypen unterstützt.

TangoFlux — Effizientes Text-zu-Audio-Generierungsmodell

Valley 2.0 — Multimodales großes Sprachmodell zur Verbesserung der Verarbeitung von Text-, Bild- und Videodaten.

Ruyi-Mini-7B — Open-Source Bild-zu-Video-Generierungsmodell

Q-RWKV-6 32B Instruct Vorschau — Die leistungsstärkste Variante des RWKV-Modells, die mehrere englische Benchmarks übertrifft.

InternVL 2.5 — Open-Source-Serie großer multimodaler Sprachmodelle

Procyon AI Inferenz-Benchmark für Android — Ein Benchmark-Tool zur Messung der KI-Leistung und -Qualität von Android-Geräten

Agentless — Agentenlose Methode zur automatischen Lösung von Softwareentwicklungsproblemen

OLMo-2-1124-7B-SFT — Hochleistungsfähiges Modell zur englischen Textgenerierung

HunyuanVideo — Ein von Tencent entwickeltes Open-Source-Framework zum Trainieren großer Videogenerierungsmodelle.

Llama-3.1-Tulu-3-8B-DPO — Fortschrittliches Textgenerierungsmodell für diverse Aufgaben

genmoai — Open-Source-Modell zur Videogenerierung

sd3.5 — Leichtgewichtiges Inferenzmodell zur Erzeugung hochwertiger Bilder

LibreFLUX — Open-Source Flux-Modell ohne Destillation

Zamba2-7B — Hochleistungsfähiges, kleines Sprachmodell

SLM_Survey — Untersuchung, Messung und Einblicke in kleine Sprachmodelle

Llama 3.2 — Open-Source-AI-Modell, feinabstimmbar, destillierbar, bereitstellbar.

Reflection Llama-3.1 70B — Spitzenmodell unter den Open-Source-Large Language Models (LLMs)

OLMoE-1B-7B — Hochleistungsfähiges, Open-Source-Großes Sprachmodell

RWKV v6 Finch 14B — RWKV v6 Finch 14B: Ein Open-Source Großes Sprachmodell zur effizienten Verarbeitung langer Texte.

Cerebras Inference — Weltweit führende KI-Inferenzlösung mit höchster Geschwindigkeit.

God Mode Animation — Modell zur Generierung von 2D-Spielanimationen

1.5-Pints — Innerhalb von 9 Tagen vortrainiertes, kompaktes großes Sprachmodell

llama3-s — Ein sich in der Entwicklung befindliches, quelloffenes Sprachmodell mit der Fähigkeit zum 'Hören'.

WeST — Sprachtranskription basierend auf LLM mit 300 Zeilen Code.

openperplex_backend_os — Open-Source-KI-Suchmaschine mit Websuche-Funktionalität.