Claude团队因数据抓取问题引众怒为绕开规则不择手段

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Aug 1, 2024

255

在数据驱动的AI时代，获取大量数据已成为训练强大模型的关键。然而，获取数据的方式却引发了争议。最近，Claude团队因不当的数据抓取行为而激起了众怒。

事件的起因是Claude团队的爬虫在24小时内对某公司服务器进行了100万次访问，以不付费的形式抓取网站内容。这一行为不仅明目张胆地无视了网站的"禁止爬取"公告，还强行占用了大量服务器资源。

受害公司尽管尽力进行了防御，但最终未能阻止Claude团队的数据抓取。公司负责人愤怒地在社交媒体上发声，谴责Claude团队的行为。许多网友也表达了他们的不满，有人甚至建议用"偷"这个词来描述这种行为。

涉事的公司是iFixit，一家美国电子商务和操作指南网站。iFixit提供数百万个页面的免费在线维修指南，涵盖消费电子产品和小工具。然而，iFixit发现Claude的爬虫程序ClaudeBot在短时间内发起了大量请求，一天内访问了10TB的文件，整个5月份总计访问了73TB。

iFixit的CEO Kyle Wiens表示，ClaudeBot未经许可就"偷走"了他们的所有数据，并占用了服务器资源。尽管iFixit在其网站上明确声明禁止未经许可的数据抓取，但Claude团队似乎对此视而不见。

Claude团队的行为并非个例。今年4月，Linux Mint论坛也曾遭受ClaudeBot的频繁访问，导致论坛运行缓慢甚至崩溃。此外，还有声音指出，除了Claude和OpenAI的GPT以外，还有许多其他AI公司也在无视网站的robots.txt设置，强行抓取数据。

面对这种情况，有人建议网站所有者在页面中添加带有可追踪或独特信息的虚假内容，以检测数据是否被非法抓取。iFixit实际上已经采取了这一措施，并发现他们的数据不仅被Claude，还被OpenAI抓取。

这一事件引发了关于AI公司数据抓取行为的广泛讨论。一方面，AI的发展确实需要大量数据作为支撑;另一方面，数据抓取也应尊重网站所有者的权益和规定。如何在推动技术进步和保护版权之间找到平衡点，是整个行业需要思考的问题。

AI时代 Claude团队 iFixit 数据抓取

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

B站陈睿称AI只是工具人才是创作主体

近日，第十二届中国网络视听大会在四川成都隆重开幕。会上，哔哩哔哩（B站）董事长兼首席执行官陈睿发表了题为“AI时代的优质内容”的主旨演讲，分享了他对新时代内容创作的见解。

2025年3月27号 15:29

1.6k

三星会长李在镕警告:三星在AI芯片竞赛中落后对手集团处于生死存亡关头

据韩联社报道，三星电子会长李在镕近日向公司高管发出严厉警告，称三星集团已失去内生动力，正处于生死存亡关头，并要求高管们必须以"置之死地而后生"的态度应对AI时代的挑战。三星集团自上月底起组织了一场名为"重塑三星力量"的大规模研讨会，共有三星电子等子公司的2000多名高管参加。在研讨会上播放的视频中，李在镕虽未露面但传达了强烈信息:"重要的不是危机形势，而是我们应对危机的态度，即使要牺牲眼前的利润，也要为未来投资。"参会的每位高管还收到了一块刻有李在

2025年3月18号 10:02

1.6k

李开复：AI时代会让每个APP都比人更聪明

今日，零一万物CEO、创新工场董事长李开复在国联民生证券首届资本市场峰会上发表了主题演讲。他在演讲中指出，2025年会是AI应用大规模落地的元年。图源备注:图片由AI生成，图片授权服务商Midjourney相较云计算，预计AI2.0应用层的爆发周期将缩短到两年内。他表示，“其实人工智能今天的生态还不太健康，因为钱都被少数芯片企业赚走了，一个良好的生态系统一定是App赚最多的钱，然后平台层、模型层在其次，芯片赚最少的钱。而人工智能今天的生态是倒过来的，预计两年内将形成健康

2025年2月27号 13:54

1.9k

WhatsApp正式迈入AI时代：企业版推出智能客服功能，商业平台连接全面升级

Meta旗下即时通讯应用WhatsApp在最新iOS测试版（24.25.10.84）中引入重要更新，为企业用户带来AI驱动的智能回复功能和商业平台连接新特性，标志着其AI战略的进一步深化。这次更新的核心是面向企业的AI支持系统。企业用户只需通过扫描二维码，即可启用AI客服功能，实现全天候的智能客户服务。这项功能尤其适合非工作时间的客户咨询处理，可以智能回复产品信息、根据客户需求推荐方案，并提供实时的价格和库存信息。在实际应用中，系统设计了灵活的人机交接机制。当企业需要人工接管

2024年12月27号 17:59

3.4k

iOS 18.2 RC 2揭秘：音量控制、邮件分类和AI时代的Siri！

苹果公司于12月9日向开发者和公测用户推出了 iOS18.2的第二个发布候选版本（RC）。这一更新是在 iOS18.1发布一个多月后推出的。iOS18.1为用户带来了若干新功能和修复，而这次的 RC 版本则主要针对一些开发者和测试用户，增添了更多的 AI 功能。此外，RC 版本还包含了一些适用于所有用户的新特性和升级。需要注意的是，由于 RC 版本仍处于测试阶段，建议用户在非主力设备上进行下载，因为这一版本可能存在 bug，电池续航也可能会受到影响。因此，建议大家在副设备上体验，而不是在日常

2024年12月10号 14:41

2.2k

马云谈AI未来:技术重要，但独特价值才决定未来命运

2024年12月8日，马云在蚂蚁集团20周年庆典上发表了精彩的演讲，回顾了互联网时代的机遇，并展望了AI时代的巨大变革。马云表示，20年前，当互联网刚刚兴起时，他和他的同代人非常幸运，抓住了这一历史机遇。但在他看来，未来20年，AI时代的到来将带来前所未有的变革，甚至超出所有人的想象。马云强调，AI将是一个更加伟大的时代，它会改变一切，但他也指出，AI不会决定一切。尽管技术在未来发展中至关重要，但马云认为，真正决定未来胜负的，仍然是今天人类为即将到来的AI时代

2024年12月9号 11:19

3.3k

社交媒体Bluesky用户数据遭抓取：一百万公开帖子被用于 AI 训练

最近，社交媒体平台 Bluesky 面临了一次重大的数据抓取事件。一位机器学习图书管理员丹尼尔・范斯特林（Daniel van Strien）从 Bluesky 的 API 接口上抓取了超过一百万条公开的用户帖子，并将这些数据上传至 AI 公司 Hugging Face。该数据集包含了用户的去中心化标识符（DID）以及一系列可以搜索特定用户内容的功能。范斯特林表示，这个数据集的主要目的是用于语言模型和自然语言处理的开发，此外还包括社交媒体趋势分析、内容审核及发布模式的研究。这项数据抓取行动引发了广泛关注，因为

2024年11月29号 10:24

2.8k

阿里CEO吴泳铭：AI时代阿里巴巴将坚持开源开放

在2024年世界互联网大会乌镇峰会的主论坛上，阿里巴巴集团CEO吴泳铭发表了关于公司在人工智能时代战略的演讲。吴泳铭指出，阿里巴巴致力于做好两件事:首先，不断完善人工智能基础设施和相关支撑体系;其次，坚持开源开放，与生态伙伴合作，将AI能力转化为各行各业的生产力。

2024年11月20号 17:33

1.5k

OpenAI胜诉！纽约法院驳回Raw Stor版权诉讼，AI数据抓取合法化成趋势？

近日，纽约南区法院驳回了 Raw Story Media， Inc. 和 AlterNet Media， Inc. 对 OpenAI 提起的版权侵犯诉讼，认为该案缺乏立案资格。这一裁决标志着在 AI 与版权之间的法律争议中，OpenAI 赢得了一场重要的胜利，也为未来类似案件的处理提供了参考。Raw Story 和 AlterNet 是两家以左派为主的在线新闻媒体，他们声称 OpenAI 在未获授权的情况下使用了他们的网站文章进行 ChatGPT 及其他模型的训练，并且在使用过程中移除了版权管理信息（CMI）。根据《数字千年版权法案》(DMCA)第1202(b) 条款，未经授权去除

2024年11月8号 14:19

3.1k

IBM称大型计算机在AI时代仍不可或缺

在人工智能浪潮席卷全球科技行业之际，有一位"老将"正准备重新登上舞台。IBM近日发布了一份题为《大型机作为数字化转型主力》的28页报告，力图证明这个已有60年历史的计算平台在AI时代仍然不可或缺。这份由IBM商业价值研究所撰写的报告不仅展示了大型机的现状，更描绘了它在AI驱动的数字化转型中的关键角色。报告显示，79%的IT高管认为大型机对于实现AI驱动的创新至关重要。经过60年的演进，大型机已成为存储和处理海量关键业务数据的中坚力量。随着各组织开始踏上AI驱动的数字

2024年10月10号 15:28

1.4k

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图

Claude团队因数据抓取问题引众怒 为绕开规则不择手段