Der von Anthropic verwendete Webcrawler ClaudeBot hat die Website von iFixit innerhalb von 24 Stunden so häufig aufgerufen, dass dies offenbar gegen die Nutzungsbedingungen des Unternehmens verstößt.
iFixit-CEO Kyle Wiens erklärte, dass dies nicht nur eine nicht autorisierte Nutzung von Inhalten darstelle, sondern auch die Entwicklungsressourcen des Unternehmens belaste. Als Reaktion darauf hat iFixit die Erweiterung „crawl-delay“ in seiner robots.txt-Datei hinzugefügt, um den Zugriff des Crawlers zu begrenzen.
Neben iFixit berichteten auch Eric Holscher, Mitbegründer von Read the Docs, und Matt Barrie, CEO von Freelancer.com, von Belästigungen durch den Anthropic-Crawler auf ihren Websites.
In den vergangenen Monaten gab es Reddit-Posts, die über eine drastische Zunahme der Webcrawling-Aktivitäten von Anthropic berichteten. Im April dieses Jahres wurde ein Ausfall des Linux Mint-Webforums auch dem Crawling von ClaudeBot zugeschrieben.
Viele KI-Unternehmen wie OpenAI nutzen robots.txt-Dateien, um den Zugriff von Crawlern zu verbieten. Dies bietet Website-Besitzern jedoch keine flexible Möglichkeit, zu definieren, welche Inhalte gecrawlt werden dürfen und welche nicht. Ein anderes KI-Unternehmen, Perplexity, wurde dabei entdeckt, die Regeln in robots.txt vollständig zu ignorieren.
Dennoch ist dies eine der wenigen Möglichkeiten für viele Unternehmen, ihre Daten vor der Verwendung als Trainingsmaterial für KI zu schützen. Reddit hat kürzlich auch Maßnahmen gegen Webcrawler ergriffen.