Caos de web scraping de IA; esforços de bloqueio de sites são inúteis

Recentemente, uma pesquisa descobriu que centenas de sites tentaram bloquear a empresa de inteligência artificial Anthropic de rastrear seu conteúdo, mas acabaram bloqueando robôs errados devido a instruções desatualizadas. Esse fenômeno destaca as dificuldades enfrentadas pelos proprietários de sites atualmente ao lidar com o ecossistema em constante mudança de rastreadores de IA.

De acordo com o operador anônimo do site Dark Visitors, que rastreia rastreadores da web, muitos sites estão bloqueando dois robôs que a Anthropic não usa mais, "ANTHROPIC-AI" e "CLAUDE-WEB", permitindo inadvertidamente que seu novo rastreador, "CLAUDEBOT", acesse livremente. Isso ocorre principalmente porque os proprietários de sites copiam e colam instruções desatualizadas em seus arquivos robots.txt, enquanto as empresas de IA continuam lançando rastreadores com novos nomes.

Preço das ações de análise de dados

Observação da fonte: A imagem foi gerada por IA, com a Midjourney como provedora de licenciamento de imagens.

Essa situação caótica não se limita à Anthropic. O operador do Dark Visitors aponta que gigantes da tecnologia como Apple e Meta também adicionaram recentemente novos proxies, tornando quase impossível para os proprietários de sites acompanhar manualmente essas mudanças. Mais preocupante ainda é que algumas empresas de IA foram flagradas rastreando sites que não deveriam ser rastreados de forma clandestina ou simplesmente ignorando as instruções do arquivo robots.txt.

Essa situação gerou uma série de problemas. Alguns sites optam por bloquear completamente os rastreadores ou permitem apenas o acesso de alguns rastreadores específicos, o que pode afetar a indexação de mecanismos de busca, arquivos da internet e pesquisas acadêmicas. Ao mesmo tempo, alguns sites enfrentam pressão técnica e econômica devido ao acesso em massa de rastreadores de IA. Por exemplo, o site de manuais de reparo iFixit relatou que o rastreador da Anthropic acessou seu site quase um milhão de vezes em um único dia. Outro provedor de serviços, Read the Docs, afirmou que um rastreador acessou 10 TB de arquivos em um dia, resultando em altos custos de largura de banda.

Um estudo da Data Provenance Initiative (Iniciativa de Proveniência de Dados) revela ainda mais a confusão generalizada enfrentada por criadores de conteúdo e proprietários de sites que tentam bloquear o treinamento de ferramentas de IA. O estudo destaca que a responsabilidade de bloquear as ferramentas de rastreamento de IA recai totalmente sobre os proprietários dos sites, e o aumento e a mudança frequente do número de rastreadores tornam essa tarefa excepcionalmente difícil.

Diante desse cenário complexo, especialistas recomendam que os administradores de sites bloqueiem ativamente rastreadores de IA suspeitos, mesmo que isso possa resultar em bloqueios equivocados de alguns proxies inexistentes. Ao mesmo tempo, alguns preveem que mais criadores de conteúdo migrarão seu conteúdo para paywalls para evitar o rastreamento irrestrito.

Notícias e Informações de IA

Caos de web scraping de IA; esforços de bloqueio de sites são inúteis

AIbase基地

Notícias de IA Relacionadas Recomendadas

Apresentado como o OCR mais poderoso do mundo! Análise completa da nova API OCR da Mistral

Quantexa arrecada US$ 175 milhões, atingindo avaliação de US$ 2,6 bilhões, impulsionando negócios de análise de dados e IA

CoreWeave adquire a plataforma de desenvolvimento de IA Weights&Biases para acelerar a inovação em inteligência artificial

Estudo de Stanford revela: adoção de ferramentas de escrita de IA é mais rápida em regiões com baixa escolaridade