コンピュータ科学者らが、Stack Overflow上のJavaコーディング問題に対するいくつかの大規模言語モデルの回答を評価した結果、それらのモデルによるコードの質は依然として不十分であることが分かりました。
研究者らは、24個の一般的なJava APIに関連するStack Overflow上の1208個のJavaコーディング問題を収集しました。その後、コードを生成できる4つの大規模言語モデルを用いて回答を生成し、独自に開発したAPI検査ツール「RobustAPI」を用いてそれらの回答を評価しました。
その結果、GPT-3.5とGPT-4のAPI誤使用率はそれぞれ49.83%と62.09%に達することが判明しました。
この研究は、大規模言語モデルのコード生成能力の向上と、コードの信頼性および堅牢性との間に明確なギャップが存在することを示しており、改善の余地が依然として大きいことを示唆しています。