SWE-bench Verified
AI模型软件工程能力评估工具
优质新品编程AI评估软件工程
SWE-bench Verified是OpenAI发布的一个经过人工验证的SWE-bench子集,旨在更可靠地评估AI模型解决现实世界软件问题的能力。它通过提供代码库和问题描述,挑战AI生成解决所描述问题的补丁。这个工具的开发是为了提高模型自主完成软件工程任务的能力评估的准确性,是OpenAI准备框架中中等风险级别的关键组成部分。
SWE-bench Verified 最新流量情况
月总访问量
551146617
跳出率
57.47%
平均页面访问数
2.2
平均访问时长
00:01:46