OpenAI hat kürzlich einen wichtigen Bericht zur Bewertung der KI-Programmierfähigkeiten veröffentlicht, der anhand von realen Entwicklungsprojekten im Wert von 1 Million US-Dollar den aktuellen Stand der KI in der Softwareentwicklung aufzeigt. Dieser Benchmark-Test namens SWE-Lancer umfasst 1.400 reale Projekte von Upwork und bewertet umfassend die Leistung von KI in den beiden Bereichen direkte Entwicklung und Projektmanagement.

Die Testergebnisse zeigen, dass das beste KI-Modell, Claude 3.5 Sonnet, eine Erfolgsquote von 26,2 % bei Codierungsaufgaben und 44,9 % bei Projektmanagement-Entscheidungen erreicht hat. Obwohl diese Leistung noch hinter der von menschlichen Entwicklern zurückbleibt, zeigt sie bereits ein beachtliches wirtschaftliches Potenzial.

Die Daten zeigen, dass das Modell allein im öffentlich zugänglichen Diamond-Datensatz Entwicklungsarbeiten im Wert von 208.050 US-Dollar erledigen konnte. Bei Anwendung auf den vollständigen Datensatz könnte die KI Aufgaben im Wert von über 400.000 US-Dollar bewältigen.

QQ20250220-103559.png

Die Studie zeigt jedoch auch deutlich die Grenzen der KI bei komplexen Entwicklungsaufgaben auf. Während die KI einfache Fehlerbehebungen (z. B. die Behebung redundanter API-Aufrufe) bewältigen kann, schwächelt sie bei komplexeren Projekten, die ein tiefes Verständnis und umfassende Lösungen erfordern (z. B. die Entwicklung einer plattformübergreifenden Videowiedergabefunktion). Besonders bemerkenswert ist, dass die KI oft problematischen Code identifizieren kann, aber Schwierigkeiten hat, die Ursache zu verstehen und umfassende Lösungen anzubieten.

Um die Forschung in diesem Bereich voranzutreiben, hat OpenAI den SWE-Lancer Diamond-Datensatz und die zugehörigen Tools auf GitHub als Open Source veröffentlicht, damit Forscher die Leistung verschiedener Programmiermodelle anhand einheitlicher Standards bewerten können. Diese Maßnahme wird einen wichtigen Beitrag zur weiteren Verbesserung der KI-Programmierfähigkeiten leisten.