Número crescente de domínios da web bloqueia o acesso de modelos de IA a dados de treinamento

Uma nova pesquisa revela que os modelos de IA estão perdendo gradualmente o acesso aos dados de treinamento online. Conduzido pela Iniciativa de Proveniência de Dados (Data Provenance Initiative), o estudo mostra que a porcentagem de conteúdo completamente bloqueado nos dados de treinamento de IA aumentou de aproximadamente 1% para 5-7% entre abril de 2023 e abril de 2024. Essa tendência pode levar a modelos de IA futuros que aprendam apenas com informações limitadas, tendenciosas e desatualizadas.

Código, Internet, Computador

Nota da imagem: Imagem gerada por IA, serviço de licenciamento de imagens Midjourney

A pesquisa analisou os arquivos robots.txt e os termos de uso de 14.000 domínios da web, que são fontes de conjuntos de dados de treinamento de IA populares (como C4, RefinedWeb e Dolma).

A pesquisa descobriu que sites de notícias, fóruns e plataformas de mídia social são as principais fontes de restrição de acesso a dados de IA, com sites de notícias mostrando um aumento dramático na porcentagem de bloqueio, de 3% para 45%. Isso significa que o conteúdo de notícias de alta qualidade pode diminuir nos dados de treinamento de IA, sendo substituído por conteúdo de baixa qualidade de sites de empresas e comércio eletrônico.

Esse fenômeno representa um desafio para os desenvolvedores de IA, pois dados de alta qualidade são cruciais para o treinamento de modelos eficazes. No entanto, os fornecedores de conteúdo de alta qualidade também podem encontrar novas fontes de receita por meio de acordos de licenciamento com empresas de IA.

O CEO do Meta, Mark Zuckerberg, chegou a afirmar que obter dados suficientes com direitos autorais para treinar um bom modelo de IA é quase impossível ou extremamente caro.

Sem uma decisão sobre uso justo, essa situação pode piorar. A OpenAI recentemente fechou acordos multimilionários com várias editoras para obter seu conteúdo para exibição em tempo real e treinamento de IA. Espera-se que outras empresas sigam o exemplo, a menos que haja uma mudança significativa nas decisões judiciais.

Destaques:

🛑 Restrições de acesso a dados em aumento: De 2023 a 2024, houve um aumento significativo na porcentagem de conteúdo bloqueado nos dados de treinamento de IA, com sites de notícias mostrando um aumento de 3% para 45%.
📉 Redução de dados de alta qualidade: A porcentagem de conteúdo de notícias de alta qualidade nos dados de treinamento de IA está diminuindo, podendo ser substituída por conteúdo de baixa qualidade de empresas e comércio eletrônico.
💸 Alto custo e problemas de licenciamento: Obter dados suficientes para o treinamento de IA é caro, representando um desafio para OpenAI e Meta, enquanto os fornecedores de conteúdo de alta qualidade podem encontrar novas fontes de receita por meio de acordos de licenciamento.

Notícias e Informações de IA

Número crescente de domínios da web bloqueia o acesso de modelos de IA a dados de treinamento

AIbase基地