计算机科学家对几个大型语言模型在 StackOverflow 的 Java 编码问题上的回答进行了评估,结果发现这些模型的代码质量仍然不尽如人意。研究人员收集了 1208 个 StackOverflow 上的 Java 编码问题,这些问题涉及 24 个常见的 Java API。然后他们用 4 个可生成代码的大型语言模型进行了回答,并根据自己开发的 API 检查器 RobustAPI 对回答进行评估。结果显示,GPT-3.5 和 GPT-4 的 API 误用率分别达到 49.83% 和 62.09%。研究认为,大型语言模型代码生成能力的提升与代码可靠性和稳健性之间存在明显差距,仍有改进的空间。