Com o aumento contínuo de modelos grandes como o ChatGPT, 2026 pode testemunhar uma escassez de dados de treinamento de alta qualidade. Para resolver o problema da falta de dados de treinamento no desenvolvimento do GPT-5, a OpenAI criou uma "aliança de dados" para coletar dados privados, textos extra longos, vídeos e áudios. Pesquisas mostram que dados de treinamento de alta qualidade são a chave para a precisão de aprendizado de modelos grandes, e sua falta pode levar à queda na qualidade do conteúdo gerado por IA. Até 2026, os dados de treinamento de alta qualidade podem se esgotar, o que representará um desafio para a iteração de funcionalidades de modelos grandes.