SWE-bench Verificado
Ferramenta de avaliação da capacidade de engenharia de software de modelos de IA
Novo Produto PremiumProgramaçãoAvaliação de IAEngenharia de Software
SWE-bench Verificado é um subconjunto do SWE-bench publicado pela OpenAI e verificado manualmente, projetado para avaliar de forma mais confiável a capacidade dos modelos de IA de resolver problemas de software do mundo real. Ele desafia a IA a gerar patches que solucionem problemas descritos, fornecendo uma base de código e descrição do problema. O desenvolvimento desta ferramenta visa melhorar a precisão da avaliação da capacidade dos modelos de concluir tarefas de engenharia de software de forma autônoma, sendo uma parte crucial do framework de preparação da OpenAI para cenários de risco moderado.
SWE-bench Verificado Situação do Tráfego Mais Recente
Total de Visitas Mensais
505000892
Taxa de Rejeição
59.23%
Média de Páginas por Visita
2.2
Duração Média da Visita
00:01:47