Novo Benchmark do OpenAI: Habilidade de Programação de IA atinge um quarto da capacidade humana, mostrando limitações

A OpenAI recentemente publicou um importante relatório de avaliação de capacidade de programação de IA, revelando, por meio de projetos de desenvolvimento reais no valor de US$ 1 milhão, o estado atual da IA no campo do desenvolvimento de software. Este teste de referência, chamado SWE-Lancer, abrange 1.400 projetos reais do Upwork, avaliando completamente o desempenho da IA em duas grandes áreas: desenvolvimento direto e gerenciamento de projetos.

Os resultados do teste mostraram que o modelo de IA de melhor desempenho, Claude3.5Sonnet, teve uma taxa de sucesso de 26,2% em tarefas de codificação e 44,9% em decisões de gerenciamento de projetos. Embora esse resultado ainda tenha uma diferença em relação aos desenvolvedores humanos, ele já demonstra um potencial econômico considerável.

Os dados mostram que, apenas no conjunto de dados Diamond público, o modelo conseguiu concluir o desenvolvimento de projetos no valor de US$ 208.050. Se expandido para o conjunto de dados completo, a IA poderá lidar com tarefas com valor superior a US$ 400.000.

No entanto, a pesquisa também revelou limitações significativas da IA em tarefas de desenvolvimento complexas. Embora a IA consiga lidar com tarefas simples de correção de erros (como corrigir chamadas de API redundantes), ela apresenta desempenho insatisfatório em projetos complexos que exigem compreensão profunda e soluções abrangentes (como o desenvolvimento de recursos de reprodução de vídeo multiplataforma). É particularmente digno de nota que a IA geralmente consegue identificar o código problemático, mas tem dificuldade em entender a causa raiz e fornecer uma solução completa.

Para impulsionar o desenvolvimento da pesquisa nessa área, a OpenAI disponibilizou em código aberto no GitHub o conjunto de dados SWE-Lancer Diamond e as ferramentas relacionadas, permitindo que os pesquisadores avaliem o desempenho de vários modelos de programação com base em um padrão unificado. Essa medida fornecerá uma referência importante para a melhoria contínua da capacidade de programação da IA.

Notícias e Informações de IA

Novo Benchmark do OpenAI: Habilidade de Programação de IA atinge um quarto da capacidade humana, mostrando limitações

AIbase基地