Le robot d'exploration web ClaudeBot utilisé par Anthropic a accédé fréquemment au site web d'iFixit en 24 heures, apparemment en violation des conditions d'utilisation de la société.
Kyle Wiens, PDG d'iFixit, a déclaré que cela non seulement utilisait du contenu sans autorisation, mais consommait également les ressources de développement de l'entreprise. Face à ce problème, iFixit a ajouté l'extension crawl-delay à son fichier robots.txt afin de limiter l'accès du robot d'exploration.
Outre iFixit, Eric Holscher, co-fondateur de Read the Docs, et Matt Barrie, PDG de Freelancer.com, ont également déclaré que leurs sites web avaient été affectés par le robot d'exploration d'Anthropic.
Au cours des derniers mois, des publications sur Reddit ont signalé une augmentation spectaculaire de l'activité de collecte de données web d'Anthropic. En avril dernier, une panne du forum du site web de Linux Mint a également été attribuée à l'activité de collecte de données de ClaudeBot.
De nombreuses entreprises d'IA, comme OpenAI, utilisent le fichier robots.txt pour refuser l'accès aux robots d'exploration, mais cela ne fournit pas aux propriétaires de sites web l'option de définir de manière flexible le contenu autorisé et interdit à l'indexation. Une autre entreprise d'IA, Perplexity, a été découverte en train d'ignorer complètement les règles d'exclusion de robots.txt.
Néanmoins, il s'agit toujours de l'une des rares options dont disposent de nombreuses entreprises pour protéger leurs données contre une utilisation dans le cadre de la formation de modèles d'IA. Reddit a récemment pris des mesures pour lutter contre les robots d'exploration web.