Informatiker haben die Antworten mehrerer großer Sprachmodelle (LLMs) auf Java-Codierungsfragen von StackOverflow bewertet und festgestellt, dass die Codequalität dieser Modelle immer noch verbesserungswürdig ist. Die Forscher sammelten 1208 Java-Codierungsfragen von StackOverflow, die 24 gängige Java-APIs abdeckten. Sie ließen dann 4 LLMs, die Code generieren können, diese Fragen beantworten und bewerteten die Antworten mit ihrem selbst entwickelten API-Prüfer RobustAPI.
Die Ergebnisse zeigten eine API-Fehlverwendungsrate von 49,83% für GPT-3.5 und 62,09% für GPT-4. Die Studie legt nahe, dass zwischen der Verbesserung der Codegenerierungsfähigkeit von LLMs und der Zuverlässigkeit und Robustheit des Codes eine deutliche Lücke besteht und noch Verbesserungspotenzial vorhanden ist.