Recentemente, pesquisadores da OpenAI admitiram em um novo artigo que, apesar do avanço da tecnologia de IA, esses modelos ainda não conseguem competir com programadores humanos. Sam Altman, CEO da OpenAI, previu que até o final do ano, a IA superaria engenheiros de software "de nível inferior", mas os resultados da pesquisa mostram que esses modelos de IA ainda enfrentam grandes desafios.

Código Internet (1)

Nota da imagem: Imagem gerada por IA, provedor de serviços de licenciamento de imagens Midjourney

No estudo, a equipe da OpenAI utilizou um novo benchmark chamado SWE-Lancer para avaliar o desempenho em mais de 1.400 tarefas de engenharia de software extraídas do site de freelancers Upwork. O teste focou na capacidade de codificação de três grandes modelos de linguagem (LLMs): o modelo de raciocínio o1 da OpenAI, seu produto principal GPT-4o e o Claude3.5Sonnet da Anthropic.

Esses modelos foram solicitados a realizar dois tipos de tarefas: tarefas individuais, principalmente focadas em corrigir erros em programas; e tarefas de gerenciamento, exigindo tomada de decisão de nível superior. Durante o teste, os modelos não tiveram acesso à internet, ou seja, não puderam procurar respostas online.

Apesar do valor total das tarefas assumidas pelos modelos atingir centenas de milhares de dólares, eles só conseguiram corrigir problemas superficiais, tendo dificuldades em encontrar erros mais profundos e causas raiz em projetos complexos. Isso lembra a experiência de usar IA: embora a IA possa gerar informações aparentemente corretas rapidamente, frequentemente revela deficiências em inspeções mais profundas.

O artigo aponta que, embora esses três LLMs sejam muito mais rápidos que os humanos no processamento de tarefas, eles frequentemente falham em compreender completamente a extensão e o contexto dos erros, levando a soluções imprecisas ou incompletas. Os pesquisadores afirmam que o Claude3.5Sonnet superou os dois modelos da OpenAI, obtendo maior receita, mas sua precisão ainda não atingiu um nível confiável.

A pesquisa mostra que, embora esses modelos de IA avançados possam operar rapidamente em algumas tarefas específicas, suas habilidades gerais de engenharia de software ainda são insuficientes e estão longe de substituir programadores humanos. No entanto, isso não impediu algumas empresas de substituir programadores humanos por modelos de IA ainda imaturos.

Destaques:

🧑‍💻 A pesquisa da OpenAI mostra que os modelos de IA avançados ainda estão atrás dos programadores humanos em termos de capacidade de codificação.

🚫 Três modelos de IA tiveram desempenho ruim na correção de erros de codificação e tiveram dificuldades em resolver problemas complexos.

🔍 Embora a IA seja rápida, ela carece de compreensão abrangente, resultando em soluções imprecisas.