O aguardado projeto GPT-5 (código Orion) está em desenvolvimento há mais de 18 meses, mas ainda não foi lançado. De acordo com um recente relatório do Wall Street Journal, fontes disseram que, embora o Orion tenha um desempenho superior aos modelos atuais da OpenAI, seu progresso não justifica o investimento de enormes custos. Mais preocupante é a escassez de dados globais, que pode ser o maior obstáculo para o GPT-5 alcançar um nível de inteligência superior.
Segundo relatos, o GPT-5 passou por pelo menos dois treinamentos, cada um revelando novos problemas e falhando em atender às expectativas dos pesquisadores. Cada rodada de treinamento levou meses, com custos de computação de US$ 500 milhões. Se o projeto terá sucesso e quando, ainda é incerto.

Caminho árduo para o treinamento: gargalo de dados se manifesta
Após o lançamento do GPT-4 em março de 2023, a OpenAI começou a desenvolver o GPT-5. Normalmente, a capacidade dos modelos de IA aumenta com o aumento da quantidade de dados que eles absorvem. O processo de treinamento requer uma enorme quantidade de dados, leva meses e depende de muitos chips de computação caros. O CEO da OpenAI, Altman, revelou que o treinamento do GPT-4 custou mais de US$ 100 milhões, e o custo de treinamento de modelos de IA futuros deve ultrapassar US$ 1 bilhão.
Para reduzir os riscos, a OpenAI geralmente realiza testes em pequena escala para verificar a viabilidade do modelo. No entanto, o desenvolvimento do GPT-5 enfrentou desafios desde o início. Em meados de 2023, a OpenAI lançou um treinamento experimental chamado "Arrakis" para testar um novo design para o GPT-5. Mas o progresso do treinamento foi lento e caro, e os resultados experimentais mostraram que o desenvolvimento do GPT-5 era mais complexo e difícil do que o esperado.
Portanto, a equipe de pesquisa da OpenAI decidiu fazer uma série de ajustes técnicos no Orion e percebeu que os dados existentes da internet pública não eram suficientes para atender às necessidades do modelo. Para melhorar o desempenho do GPT-5, eles precisam desesperadamente de dados de maior variedade e qualidade.
“Criando dados do zero”: enfrentando a escassez de dados
Para lidar com a escassez de dados, a OpenAI decidiu “criar dados do zero”. Eles contrataram engenheiros de software e matemáticos para escrever novos códigos de software ou resolver problemas matemáticos, permitindo que o Orion aprendesse com essas tarefas. A OpenAI também fará com que esses especialistas expliquem seus processos de trabalho, transformando a inteligência humana em conhecimento que a máquina pode aprender.
Muitos pesquisadores acreditam que o código, como linguagem de software, pode ajudar os grandes modelos a resolver problemas que eles nunca viram antes. O CEO da Turing, Jonathan Siddharth, disse: "Estamos transferindo a inteligência humana do cérebro humano para o cérebro da máquina."
A OpenAI até mesmo colaborou com especialistas em campos como física teórica, pedindo-lhes que explicassem como resolver problemas em suas respectivas áreas. No entanto, este método de “criar dados do zero” não é muito eficiente. Os dados de treinamento do GPT-4 são de aproximadamente 13 trilhões de tokens, e mesmo que 1.000 pessoas escrevam 5.000 palavras por dia, levaria meses para produzir 1 bilhão de tokens.
Para acelerar o treinamento, a OpenAI também tentou usar "dados sintéticos" gerados por IA. Mas pesquisas mostraram que o uso de dados gerados por IA em um ciclo de feedback de treinamento de IA pode, às vezes, levar a erros no modelo ou gerar respostas sem sentido. Para isso, os cientistas da OpenAI acreditam que o uso de dados gerados por O(1) pode evitar esses problemas.
Problemas internos e externos: OpenAI enfrenta múltiplos desafios
A OpenAI não enfrenta apenas desafios técnicos, mas também instabilidade interna e contratação de concorrentes. Ao mesmo tempo, a pressão dupla da tecnologia e do financiamento está aumentando. Cada treinamento custa US$ 500 milhões, e o custo final do treinamento provavelmente ultrapassará US$ 1 bilhão. Ao mesmo tempo, concorrentes como Anthropic e Google estão lançando novos modelos de última geração na tentativa de superar a OpenAI.
A perda de talentos e as divergências internas atrasaram ainda mais o desenvolvimento. No ano passado, o conselho da OpenAI demitiu repentinamente Altman, levando alguns pesquisadores a questionar o futuro da empresa. Embora Altman tenha sido rapidamente nomeado novamente CEO e tenha começado a reformar a governança corporativa, mais de 20 executivos, pesquisadores e funcionários de longa data, incluindo o cofundador e cientista-chefe Ilya Sutskever e a diretora de tecnologia Mira Murati, deixaram a empresa este ano.
Com o projeto Orion estagnado, a OpenAI começou a desenvolver outros projetos e aplicativos, incluindo uma versão simplificada do GPT-4 e o produto de geração de vídeo de IA Sora. Mas isso levou a uma disputa entre diferentes equipes pelos recursos de computação limitados, especialmente uma competição acirrada entre as equipes de desenvolvimento de novos produtos e a equipe de pesquisa Orion.
Gargalo no desenvolvimento da IA? O setor enfrenta uma profunda reflexão
O dilema do GPT-5 pode revelar um problema maior do setor: a IA está se aproximando de um "gargalo" de desenvolvimento? Especialistas do setor apontam que a estratégia de depender de grandes quantidades de dados e modelos maiores está gradualmente se tornando ineficaz. O ex-cientista da OpenAI, Sutskever, disse: "Só temos uma internet", o crescimento dos dados está diminuindo e esse "combustível fóssil" que impulsiona o salto da IA está se esgotando.
Quanto ao futuro do GPT-5, Altman ainda não forneceu um cronograma claro. Ainda não sabemos quando ou se a OpenAI lançará um modelo digno de ser chamado de GPT-5. Este dilema do GPT-5 também levou as pessoas a refletir profundamente sobre a direção futura do desenvolvimento da IA.