SWE-Lancer
SWE-Lancer 是一个包含 1400 多个自由软件工程任务的基准测试,总价值 100 万美元。
国外精选编程基准测试软件工程
SWE-Lancer 是由 OpenAI 推出的一个基准测试,旨在评估前沿语言模型在真实世界中的自由软件工程任务中的表现。该基准测试涵盖了从 50 美元的漏洞修复到 32000 美元的功能实现等多种独立工程任务,以及模型在技术实现方案之间的选择等管理任务。通过模型将性能映射到货币价值,SWE-Lancer 为研究 AI 模型开发的经济影响提供了新的视角,并推动了相关研究的发展。
SWE-Lancer 最新流量情况
月总访问量
558288437
跳出率
58.48%
平均页面访问数
2.2
平均访问时长
00:01:52