Studie: KI-Modelle generieren immer noch keinen sauberen Code

Bewertung von LLMs bei Java-Codierungsaufgaben

Informatiker haben die Antworten mehrerer großer Sprachmodelle (LLMs) auf Java-Codierungsfragen von StackOverflow bewertet und festgestellt, dass die Codequalität dieser Modelle immer noch verbesserungswürdig ist. Die Forscher sammelten 1208 Java-Codierungsfragen von StackOverflow, die 24 gängige Java-APIs abdeckten. Sie ließen dann 4 LLMs, die Code generieren können, diese Fragen beantworten und bewerteten die Antworten mit ihrem selbst entwickelten API-Prüfer RobustAPI.

Die Ergebnisse zeigten eine API-Fehlverwendungsrate von 49,83% für GPT-3.5 und 62,09% für GPT-4. Die Studie legt nahe, dass zwischen der Verbesserung der Codegenerierungsfähigkeit von LLMs und der Zuverlässigkeit und Robustheit des Codes eine deutliche Lücke besteht und noch Verbesserungspotenzial vorhanden ist.

KI-Nachrichten und -Informationen

Studie: KI-Modelle generieren immer noch keinen sauberen Code – GPT-4 API-Missbrauchrate bei 62%

站长之家