SWE-bench Verificado

Ferramenta de avaliação da capacidade de engenharia de software de modelos de IA

Novo Produto PremiumProgramaçãoAvaliação de IAEngenharia de Software
SWE-bench Verificado é um subconjunto do SWE-bench publicado pela OpenAI e verificado manualmente, projetado para avaliar de forma mais confiável a capacidade dos modelos de IA de resolver problemas de software do mundo real. Ele desafia a IA a gerar patches que solucionem problemas descritos, fornecendo uma base de código e descrição do problema. O desenvolvimento desta ferramenta visa melhorar a precisão da avaliação da capacidade dos modelos de concluir tarefas de engenharia de software de forma autônoma, sendo uma parte crucial do framework de preparação da OpenAI para cenários de risco moderado.
Abrir Site

SWE-bench Verificado Situação do Tráfego Mais Recente

Total de Visitas Mensais

505000892

Taxa de Rejeição

59.23%

Média de Páginas por Visita

2.2

Duração Média da Visita

00:01:47

SWE-bench Verificado Tendência de Visitas

SWE-bench Verificado Distribuição Geográfica das Visitas

SWE-bench Verificado Fontes de Tráfego

SWE-bench Verificado Alternativas