Kürzlich räumten OpenAI-Forscher in einer neuen Veröffentlichung ein, dass aktuelle KI-Technologien, so fortschrittlich sie auch sind, immer noch nicht mit menschlichen Programmierern mithalten können. Sam Altman, CEO von OpenAI, prognostizierte zwar, dass KI bis Ende des Jahres „einfachere“ Softwareentwickler übertreffen werde, doch die Forschungsergebnisse zeigen, dass diese KI-Modelle noch vor großen Herausforderungen stehen.
Bildquelle: Das Bild wurde mit KI generiert, Lizenzgeber: Midjourney
In der Studie verwendete das OpenAI-Team einen neuen Benchmark namens SWE-Lancer, um die Leistung von über 1400 Software-Engineering-Aufgaben zu bewerten, die von der Freelance-Plattform Upwork bezogen wurden. Der Test konzentrierte sich auf die Codierfähigkeiten dreier großer Sprachmodelle (LLMs): OpenAIs o1-Inferenzmodell, das Flaggschiff GPT-4o und Anthropics Claude3.5Sonnet.
Die Modelle wurden mit zwei Arten von Aufgaben konfrontiert: Einzelaufgaben, die sich hauptsächlich auf die Behebung von Fehlern im Code konzentrierten, und Management-Aufgaben, die komplexere Entscheidungen erforderten. Während des Tests hatten die Modelle keinen Internetzugang, konnten also keine Online-Antworten suchen.
Obwohl der Gesamtwert der von den Modellen bearbeiteten Aufgaben Hunderttausende von Dollar erreichte, konnten sie nur oberflächliche Probleme beheben und tiefer liegende Fehler oder Ursachen in komplexen Projekten nicht finden. Dies erinnert an typische KI-Erfahrungen: KI generiert schnell scheinbar korrekte Informationen, zeigt aber bei genauerer Prüfung oft Schwächen.
Die Studie zeigt, dass die drei LLMs zwar deutlich schneller als Menschen arbeiteten, aber oft die Komplexität und den Kontext von Fehlern nicht vollständig erfassten, was zu ungenauen oder unvollständigen Lösungen führte. Die Forscher stellten fest, dass Claude3.5Sonnet besser abschnitt als die beiden OpenAI-Modelle und höhere Einnahmen erzielte, aber die Genauigkeit seiner Antworten immer noch nicht zuverlässig war.
Die Forschung zeigt, dass diese fortschrittlichen KI-Modelle, obwohl sie in bestimmten Aufgaben schnell arbeiten, in ihren allgemeinen Software-Engineering-Fähigkeiten noch deutlich hinter menschlichen Programmierern zurückbleiben und bei weitem nicht in der Lage sind, diese zu ersetzen. Dies hindert einige Unternehmen jedoch nicht daran, menschliche Programmierer durch noch unreife KI-Modelle zu ersetzen.
Wichtigste Punkte:
🧑💻 OpenAI-Forschung zeigt, dass fortschrittliche KI-Modelle in ihren Codierfähigkeiten menschlichen Programmierern unterlegen sind.
🚫 Drei KI-Modelle schnitten bei der Behebung von Codierfehlern schlecht ab und konnten komplexe Probleme nicht lösen.
🔍 Obwohl KI schnell ist, mangelt es ihr an umfassenden Verständnis, was zu ungenauen Lösungen führt.