在数据驱动的AI时代,获取大量数据已成为训练强大模型的关键。然而,获取数据的方式却引发了争议。最近,Claude团队因不当的数据抓取行为而激起了众怒。

事件的起因是Claude团队的爬虫在24小时内对某公司服务器进行了100万次访问,以不付费的形式抓取网站内容。这一行为不仅明目张胆地无视了网站的"禁止爬取"公告,还强行占用了大量服务器资源。

受害公司尽管尽力进行了防御,但最终未能阻止Claude团队的数据抓取。公司负责人愤怒地在社交媒体上发声,谴责Claude团队的行为。许多网友也表达了他们的不满,有人甚至建议用"偷"这个词来描述这种行为。

image.png

涉事的公司是iFixit,一家美国电子商务和操作指南网站。iFixit提供数百万个页面的免费在线维修指南,涵盖消费电子产品和小工具。然而,iFixit发现Claude的爬虫程序ClaudeBot在短时间内发起了大量请求,一天内访问了10TB的文件,整个5月份总计访问了73TB。

iFixit的CEO Kyle Wiens表示,ClaudeBot未经许可就"偷走"了他们的所有数据,并占用了服务器资源。尽管iFixit在其网站上明确声明禁止未经许可的数据抓取,但Claude团队似乎对此视而不见。

Claude团队的行为并非个例。今年4月,Linux Mint论坛也曾遭受ClaudeBot的频繁访问,导致论坛运行缓慢甚至崩溃。此外,还有声音指出,除了Claude和OpenAI的GPT以外,还有许多其他AI公司也在无视网站的robots.txt设置,强行抓取数据。

面对这种情况,有人建议网站所有者在页面中添加带有可追踪或独特信息的虚假内容,以检测数据是否被非法抓取。iFixit实际上已经采取了这一措施,并发现他们的数据不仅被Claude,还被OpenAI抓取。

这一事件引发了关于AI公司数据抓取行为的广泛讨论。一方面,AI的发展确实需要大量数据作为支撑;另一方面,数据抓取也应尊重网站所有者的权益和规定。如何在推动技术进步和保护版权之间找到平衡点,是整个行业需要思考的问题。