SWE-Lancer é um benchmark lançado pela OpenAI, projetado para avaliar o desempenho de modelos de linguagem de ponta em tarefas de engenharia de software freelance do mundo real. O benchmark abrange uma variedade de tarefas de engenharia independentes, desde correções de bugs de US$ 50 até implementações de recursos de US$ 32.000, além de tarefas de gerenciamento, como a seleção entre soluções de implementação técnica. Ao mapear o desempenho do modelo para o valor monetário, o SWE-Lancer oferece uma nova perspectiva para a pesquisa sobre o impacto econômico do desenvolvimento de modelos de IA e impulsiona o desenvolvimento de pesquisas relacionadas.