AI公司爬虫混乱网站屏蔽努力徒劳无功

近日，一项调查发现，数百个网站试图阻止人工智能公司Anthropic抓取其内容，却因为使用过时的指令而屏蔽了错误的机器人。这一现象突显了当前网站所有者在应对不断变化的AI爬虫生态系统时面临的困境。

根据跟踪网络爬虫的网站Dark Visitors的匿名运营者透露，许多网站正在封锁Anthropic公司不再使用的两个机器人"ANTHROPIC-AI"和"CLAUDE-WEB"，同时在不知情的情况下让该公司真正的新爬虫"CLAUDEBOT"保持畅通。这种情况的出现，主要是由于网站所有者将过时的指令复制粘贴到了robots.txt文件中，而AI公司不断推出具有新名称的爬虫机器人。

数据分析股价

图源备注：图片由AI生成，图片授权服务商Midjourney

这一混乱局面不仅限于Anthropic。Dark Visitors的运营者指出，Apple和Meta等科技巨头最近也添加了新的代理，使得网站所有者几乎不可能手动跟上这些变化。更令人担忧的是，一些AI公司被发现以隐蔽方式抓取不应抓取的网站，或直接忽视robots.txt文件的指令。

这种情况导致了一系列问题。一些网站选择全面阻止爬虫，或只允许少数特定爬虫访问，这可能会影响搜索引擎索引、互联网存档和学术研究。同时，一些网站面临着AI爬虫大规模访问带来的技术和经济压力。例如，维修指南网站iFixit报告称，Anthropic的爬虫在一天内访问了其网站近一百万次。另一家服务提供商Read the Docs则表示，一个爬虫在一天内访问了价值10TB的文件，导致高昂的带宽费用。

数据来源倡议（Data Provenance Initiative）的一项研究进一步揭示了内容创作者和网站所有者在试图阻止AI工具训练时面临的普遍困惑。研究指出，阻止AI抓取工具的责任完全落在网站所有者身上，而爬虫数量的不断增加和频繁变化使这一任务变得异常艰难。

面对这一复杂局面，专家们建议网站管理员应该积极阻止可疑的AI爬虫，即使可能会误伤一些不存在的代理。同时，也有人预测会有更多创作者将内容转移到付费墙后面，以防止不受限制的抓取。

AI新闻资讯

AI公司爬虫混乱网站屏蔽努力徒劳无功

AIbase基地

AI新闻资讯

AI公司爬虫混乱 网站屏蔽努力徒劳无功

AIbase基地

AI公司爬虫混乱网站屏蔽努力徒劳无功