Anthropic 使用的 ClaudeBot 网络爬虫在24小时内频繁访问 iFixit 网站,似乎违反了复公司的使用条款。
iFixit CEO Kyle Wiens 表示,这种为不仅未经授权地使用内容,还占用了他们的开发资源。对此事,Fixit 已经在 robots.txt 中添加了 crawl-delay 扩展以限制爬虫访问。
除了 iFixit 外,Read the Docs 的联合创始人 Eric Holscher 和 Freelancer.com 的 CEO Matt Barrie 也称他们的网站遭到 Anthropic 爬虫的侵扰。
此前几个月,有 Reddit 帖子报告 Anthropic 的网页抓取活动急剧增加。今年4月,Linux Mint 网页论坛的站点故障也被归因于 ClaudeBot 的抓取活动。
很多 AI 公司像 OpenAI 都通过 robots.txt 文件来拒绝爬虫访问,但这并不提供网站所有者灵活定义允许和禁止哪些抓取内容的选项。另一家 AI 公司 Perplexity 则被发现完全忽略 robots.txt 排除规则。
尽管如此,这仍是许多公司保护数据不被用于 AI 训练材料的少数选择之一,Reddit 最近也在打击网络爬虫方面采取了行动。