Recentemente, algo estranho aconteceu no mundo da IA, como se um influenciador gastronômico começasse a comer seus próprios pratos, ficando cada vez mais viciado e a comida cada vez pior. É assustador, e o termo técnico para isso é colapso do modelo (model collapse).

O que é colapso do modelo? Simplificando, é quando um modelo de IA, durante o treinamento, usa uma grande quantidade de dados gerados por si mesmo, entrando em um ciclo vicioso que leva à deterioração da qualidade da geração, culminando em um fracasso completo.

É como um ecossistema fechado, onde o modelo de IA é o único organismo. A comida que ele produz são os dados. Inicialmente, ele encontra alguns ingredientes naturais (dados reais), mas com o tempo, começa a depender cada vez mais de ingredientes "artificiais" (dados sintéticos). O problema é que esses ingredientes "artificiais" são nutricionalmente deficientes e contêm defeitos do próprio modelo. Comendo muito, o "corpo" do modelo de IA entra em colapso, e suas gerações ficam cada vez mais absurdas.

image.png

Este artigo de pesquisa analisa o fenômeno do colapso do modelo e tenta responder a duas perguntas-chave:

  • O colapso do modelo é inevitável? É possível resolver o problema misturando dados reais e dados sintéticos?

  • Quanto maior o modelo, maior a probabilidade de colapso?

Para investigar essas questões, os autores do artigo projetaram uma série de experimentos e usaram um modelo de projeção aleatória para simular o processo de treinamento de uma rede neural. Eles descobriram que mesmo o uso de uma pequena porcentagem de dados sintéticos (como 1%) pode levar ao colapso do modelo. Pior ainda, à medida que o tamanho do modelo aumenta, o fenômeno do colapso do modelo se torna mais grave.

image.png

É como se um influenciador gastronômico, para chamar a atenção, começasse a experimentar ingredientes estranhos, e acabasse com problemas de saúde. Para compensar, ele aumenta a quantidade de comida, experimentando coisas ainda mais estranhas, piorando sua saúde e tendo que abandonar sua carreira.

Então, como podemos evitar o colapso do modelo?

Os autores do artigo sugerem algumas recomendações:

  • Priorizar dados reais: Os dados reais são como ingredientes naturais, ricos em nutrientes e essenciais para o crescimento saudável do modelo de IA.

  • Usar dados sintéticos com cautela: Os dados sintéticos são como ingredientes artificiais, que podem complementar a nutrição, mas não se deve depender excessivamente deles, pois isso pode ser contraproducente.

  • Controlar o tamanho do modelo: Quanto maior o modelo, maior o apetite, e maior a probabilidade de problemas. Ao usar dados sintéticos, é preciso controlar o tamanho do modelo, evitando a superalimentação.

O colapso do modelo é um novo desafio no desenvolvimento da IA, lembrando-nos de que, ao buscarmos a escala e a eficiência do modelo, também devemos nos preocupar com a qualidade dos dados e a saúde do modelo. Somente assim, podemos garantir o desenvolvimento contínuo e saudável dos modelos de IA, criando maior valor para a sociedade humana.

Artigo: https://arxiv.org/pdf/2410.04840