Em 13 de agosto, a OpenAI anunciou o lançamento do SWE-bench Verified, um benchmark de avaliação de geração de código, projetado para avaliar com mais precisão o desempenho de modelos de inteligência artificial em tarefas de engenharia de software. Este novo benchmark resolve várias limitações do SWE-bench anterior.

O SWE-bench é um conjunto de dados de avaliação baseado em problemas reais de software do GitHub, contendo 2294 pares de Issue-Pull Request de 12 repositórios Python populares. No entanto, o SWE-bench original apresentava três problemas principais: testes unitários excessivamente rigorosos, que poderiam rejeitar soluções corretas; descrições de problemas pouco claras; e dificuldade em configurar o ambiente de desenvolvimento de forma confiável.

QQ截图20240815145302.png

Para resolver esses problemas, o SWE-bench Verified introduz um novo kit de ferramentas de avaliação com ambiente Docker em contêiner, tornando o processo de avaliação mais consistente e confiável. Essa melhoria aumentou significativamente as pontuações de desempenho dos modelos de IA. Por exemplo, o GPT-4o resolveu 33,2% das amostras no novo benchmark, enquanto a pontuação do Agentless, a melhor estrutura de agente de código aberto, dobrou para 16%.

Essa melhoria de desempenho indica que o SWE-bench Verified consegue capturar melhor as capacidades reais dos modelos de IA em tarefas de engenharia de software. Ao resolver as limitações do benchmark anterior, a OpenAI fornece uma ferramenta de avaliação mais precisa para aplicações de IA no desenvolvimento de software, o que pode impulsionar o desenvolvimento e a aplicação dessas tecnologias.

Com a crescente utilização de tecnologias de IA na engenharia de software, benchmarks como o SWE-bench Verified desempenharão um papel crucial na medição e no impulso da melhoria das capacidades dos modelos de IA.

Endereço: https://openai.com/index/introducing-swe-bench-verified/