Recentemente, a escassez de dados para treinamento de modelos de IA de grande porte voltou a ser foco da mídia. Um artigo recente da revista The Economist, intitulado "Empresas de IA logo esgotarão a maior parte dos dados da internet", gerou amplo debate no setor. O artigo aponta que, com o esgotamento de dados de alta qualidade na internet, o campo da IA está enfrentando o desafio da "parede de dados".

A empresa de pesquisa Epoch AI prevê que todos os dados de texto de alta qualidade na internet serão esgotados até 2028, e que os conjuntos de dados de aprendizado de máquina podem esgotar todos os "dados de linguagem de alta qualidade" antes de 2026. Essa "parede de dados" tornou-se um problema significativo para as empresas de IA, podendo retardar seu progresso de treinamento.

Análise de dados, monitoramento de dados, internet, big data (2)

Observação da fonte: Imagem gerada por IA, fornecedora de serviços de licenciamento de imagens Midjourney

O setor já havia alertado para esse problema. Em julho de 2023, o professor Stuart Russell, da Universidade da Califórnia em Berkeley, alertou que robôs acionados por IA, como o ChatGPT, poderiam logo "esgotar o texto do universo". No entanto, também existem opiniões divergentes. Em maio de 2024, a professora Fei-Fei Li, da Universidade de Stanford, afirmou que ainda há uma grande quantidade de dados diferenciados esperando para serem explorados para construir modelos mais personalizados.

Para lidar com a escassez de dados, o uso de dados sintéticos tornou-se uma solução potencial. Mas um artigo recente publicado na revista Nature aponta que o uso de conjuntos de dados gerados por IA para treinar as próximas gerações de modelos de aprendizado de máquina pode levar a uma "quebra do modelo", fazendo com que o modelo interprete mal a realidade. A equipe de pesquisa recomenda manter parte dos dados originais nos dados de treinamento, usar fontes de dados diversificadas e pesquisar algoritmos de treinamento mais robustos.

Como superar as limitações da "parede de dados" e garantir o fornecimento contínuo de dados de treinamento de alta qualidade tornou-se uma questão urgente para o setor de IA. Isso requer não apenas inovação tecnológica, mas também esforços conjuntos de governos, empresas e instituições de pesquisa. À medida que a tecnologia de IA se integra cada vez mais em todos os setores, a solução do problema da escassez de dados terá um profundo impacto no desenvolvimento contínuo e saudável da IA.