O rastreador web ClaudeBot, usado pela Anthropic, acessou o site da iFixit com muita frequência em 24 horas, aparentemente violando os termos de uso da empresa.
Kyle Wiens, CEO da iFixit, afirma que isso não apenas utilizou o conteúdo sem autorização, mas também consumiu seus recursos de desenvolvimento. Em resposta, a iFixit adicionou a extensão crawl-delay ao seu arquivo robots.txt para limitar o acesso do rastreador web.
Além da iFixit, Eric Holscher, cofundador do Read the Docs, e Matt Barrie, CEO da Freelancer.com, também relataram que seus sites foram afetados pelo rastreador da Anthropic.
Nos últimos meses, posts no Reddit relataram um aumento acentuado na atividade de rastreamento da Anthropic. Em abril deste ano, uma falha no site do fórum do Linux Mint também foi atribuída à atividade de rastreamento do ClaudeBot.
Muitas empresas de IA, como a OpenAI, usam o arquivo robots.txt para bloquear o acesso de rastreadores web, mas isso não oferece aos proprietários de sites a flexibilidade de definir exatamente quais conteúdos podem ou não ser rastreados. Outra empresa de IA, a Perplexity, foi descoberta ignorando completamente as regras de exclusão do robots.txt.
Apesar disso, essa ainda é uma das poucas opções que muitas empresas têm para proteger seus dados de serem usados como material de treinamento para IA. O Reddit também tomou medidas recentemente para combater rastreadores web.