Pesquisa Recente da OpenAI Revela: IAs de Ponta Ainda Enfrentam Dificuldades em Problemas de Codificação

AIbase基地

Publicado emNotícias e Informações de IA · 5 minutos de leitura · Feb 24, 2025

161

Recentemente, pesquisadores da OpenAI admitiram em um novo artigo que, apesar do avanço da tecnologia de IA, esses modelos ainda não conseguem competir com programadores humanos. Sam Altman, CEO da OpenAI, previu que até o final do ano, a IA superaria engenheiros de software "de nível inferior", mas os resultados da pesquisa mostram que esses modelos de IA ainda enfrentam grandes desafios.

Código Internet (1)

Nota da imagem: Imagem gerada por IA, provedor de serviços de licenciamento de imagens Midjourney

No estudo, a equipe da OpenAI utilizou um novo benchmark chamado SWE-Lancer para avaliar o desempenho em mais de 1.400 tarefas de engenharia de software extraídas do site de freelancers Upwork. O teste focou na capacidade de codificação de três grandes modelos de linguagem (LLMs): o modelo de raciocínio o1 da OpenAI, seu produto principal GPT-4o e o Claude3.5Sonnet da Anthropic.

Esses modelos foram solicitados a realizar dois tipos de tarefas: tarefas individuais, principalmente focadas em corrigir erros em programas; e tarefas de gerenciamento, exigindo tomada de decisão de nível superior. Durante o teste, os modelos não tiveram acesso à internet, ou seja, não puderam procurar respostas online.

Apesar do valor total das tarefas assumidas pelos modelos atingir centenas de milhares de dólares, eles só conseguiram corrigir problemas superficiais, tendo dificuldades em encontrar erros mais profundos e causas raiz em projetos complexos. Isso lembra a experiência de usar IA: embora a IA possa gerar informações aparentemente corretas rapidamente, frequentemente revela deficiências em inspeções mais profundas.

O artigo aponta que, embora esses três LLMs sejam muito mais rápidos que os humanos no processamento de tarefas, eles frequentemente falham em compreender completamente a extensão e o contexto dos erros, levando a soluções imprecisas ou incompletas. Os pesquisadores afirmam que o Claude3.5Sonnet superou os dois modelos da OpenAI, obtendo maior receita, mas sua precisão ainda não atingiu um nível confiável.

A pesquisa mostra que, embora esses modelos de IA avançados possam operar rapidamente em algumas tarefas específicas, suas habilidades gerais de engenharia de software ainda são insuficientes e estão longe de substituir programadores humanos. No entanto, isso não impediu algumas empresas de substituir programadores humanos por modelos de IA ainda imaturos.

Destaques:
🧑‍💻 A pesquisa da OpenAI mostra que os modelos de IA avançados ainda estão atrás dos programadores humanos em termos de capacidade de codificação.
🚫 Três modelos de IA tiveram desempenho ruim na correção de erros de codificação e tiveram dificuldades em resolver problemas complexos.
🔍 Embora a IA seja rápida, ela carece de compreensão abrangente, resultando em soluções imprecisas.

Modelo o1 completo do OpenAI revelado: capacidades impressionantes, processa 200.000 tokens

Recentemente, um usuário relatou na plataforma de mídia social X que o novo modelo o1 do OpenAI foi brevemente disponibilizado para alguns usuários por meio do URL “chatgpt.com/?model=o1”, sendo posteriormente desativado. De acordo com o feedback do usuário, este modelo mais recente consegue processar aproximadamente 200.000 palavras de texto e possui a capacidade de analisar imagens. O OpenAI se refere ao modelo o1 como seu "modelo mais poderoso", especialmente adequado para tarefas que exigem criatividade e raciocínio avançado.

OpenAI Lança o GPT-4O-Audio-Preview: Áudio que 'Entende' Emoções!

A OpenAI lidera novamente a inovação em inteligência artificial com o lançamento do novo modelo gpt-4o-audio-preview. Este modelo demonstra capacidades surpreendentes na geração e análise de áudio, abrindo novas possibilidades para a interação humano-computador. Vamos explorar os recursos deste modelo inovador e suas potenciais aplicações. As principais funcionalidades do gpt-4o-audio-preview incluem três aspectos: primeiro, ele pode gerar respostas de voz naturais e fluidas com base em texto, fornecendo suporte para aplicativos como assistentes de voz e atendimento virtual.

Novo modelo OpenAI gpt-4o-2024-08-06 e gpt-4o-mini com suporte a saída estruturada

A OpenAI adicionou a funcionalidade de saída estruturada à sua API, garantindo que a saída gerada esteja totalmente em conformidade com o esquema JSON predefinido, melhorando significativamente a confiabilidade da API e a precisão dos aplicativos. Este recurso não apenas define a estrutura do JSON, mas também garante a precisão da saída. Simultaneamente, houve uma redução de preços, com o custo de entrada reduzido pela metade e o custo de saída reduzido em 1/3. A introdução da saída estruturada resolveu as limitações do esquema JSON em garantir que a saída esteja em conformidade com uma estrutura específica, melhorando significativamente o desempenho do modelo em relação à saída estruturada. Através de inovações tecnológicas, como restrições...

OpenAI lança novo modelo gpt-4o-64k-output-alpha: GPT-4o API agora suporta até 64K de saída

O principal destaque do novo modelo gpt-4o-64k-output-alpha da OpenAI é a capacidade de gerar uma saída de até 64K tokens de uma só vez, ideal para produzir conteúdo rico e detalhado, atendendo às necessidades de redação, programação e análise de dados complexos. No entanto, este recurso aumenta o preço da API, custando US$ 18 por milhão de tokens de saída, em comparação com US$ 6 por milhão de tokens de entrada. Essa medida visa equilibrar os altos custos computacionais e incentivar o uso responsável desta poderosa ferramenta. O modelo é uma ferramenta valiosa para os campos da criação e da pesquisa.