El rastreador web ClaudeBot, utilizado por Anthropic, ha accedido con frecuencia al sitio web de iFixit en un período de 24 horas, aparentemente violando los términos de uso de la compañía.
Kyle Wiens, CEO de iFixit, afirma que esto no solo constituye un uso no autorizado del contenido, sino que también consume recursos de desarrollo. Como respuesta, iFixit ha añadido la extensión crawl-delay a su archivo robots.txt para limitar el acceso del rastreador web.
Además de iFixit, Eric Holscher, cofundador de Read the Docs, y Matt Barrie, CEO de Freelancer.com, también han denunciado la intrusión del rastreador web de Anthropic en sus sitios web.
En los últimos meses, publicaciones en Reddit han informado de un aumento drástico en la actividad de rastreo web de Anthropic. En abril de este año, una falla en el sitio web del foro de Linux Mint también se atribuyó a la actividad de rastreo de ClaudeBot.
Muchas empresas de IA, como OpenAI, utilizan el archivo robots.txt para denegar el acceso a los rastreadores web, pero esto no ofrece a los propietarios de los sitios web la flexibilidad para definir qué contenido se permite o se prohíbe rastrear. Otra empresa de IA, Perplexity, fue descubierta ignorando completamente las reglas de exclusión de robots.txt.
A pesar de ello, sigue siendo una de las pocas opciones que muchas empresas tienen para proteger sus datos de ser utilizados como material de entrenamiento para IA. Recientemente, Reddit también ha tomado medidas para combatir los rastreadores web.