OpenAI于8月13日宣布推出SWE-bench Verified代码生成评估基准,旨在更准确评估人工智能模型在软件工程任务中的表现。这一新基准解决了此前SWE-bench存在的多项局限性。
SWE-bench是一个基于GitHub真实软件问题的评估数据集,包含来自12个流行Python仓库的2294个Issue-Pull Request对。然而,原版SWE-bench存在三个主要问题:单元测试过于严格,可能拒绝正确解决方案;问题描述不够明确;开发环境难以可靠设置。
为解决这些问题,SWE-bench Verified引入了容器化Docker环境的新评估工具包,使评估过程更加一致和可靠。这一改进显著提升了AI模型的表现评分。例如,GPT-4o在新基准下解决了33.2%的样本,而表现最佳的开源代理框架Agentless的得分也翻倍至16%。
这一性能提升表明,SWE-bench Verified能更好地捕捉AI模型在软件工程任务中的真实能力。通过解决原有基准的局限性,OpenAI为AI在软件开发领域的应用提供了更精确的评估工具,有望推动相关技术的进一步发展和应用。
随着AI技术在软件工程中的应用日益广泛,像SWE-bench Verified这样的评估基准将在衡量和推动AI模型能力提升方面发挥重要作用。
地址:https://openai.com/index/introducing-swe-bench-verified/