SWE-bench Verified

AI模型软件工程能力评估工具

优质新品编程AI评估软件工程
SWE-bench Verified是OpenAI发布的一个经过人工验证的SWE-bench子集,旨在更可靠地评估AI模型解决现实世界软件问题的能力。它通过提供代码库和问题描述,挑战AI生成解决所描述问题的补丁。这个工具的开发是为了提高模型自主完成软件工程任务的能力评估的准确性,是OpenAI准备框架中中等风险级别的关键组成部分。
打开网站

SWE-bench Verified 最新流量情况

月总访问量

546526496

跳出率

56.81%

平均页面访问数

2.1

平均访问时长

00:01:39

SWE-bench Verified 访问量趋势

SWE-bench Verified 访问地理位置分布

SWE-bench Verified 流量来源

SWE-bench Verified 替代品