近日,一项调查发现,数百个网站试图阻止人工智能公司Anthropic抓取其内容,却因为使用过时的指令而屏蔽了错误的机器人。这一现象突显了当前网站所有者在应对不断变化的AI爬虫生态系统时面临的困境。
根据跟踪网络爬虫的网站Dark Visitors的匿名运营者透露,许多网站正在封锁Anthropic公司不再使用的两个机器人"ANTHROPIC-AI"和"CLAUDE-WEB",同时在不知情的情况下让该公司真正的新爬虫"CLAUDEBOT"保持畅通。这种情况的出现,主要是由于网站所有者将过时的指令复制粘贴到了robots.txt文件中,而AI公司不断推出具有新名称的爬虫机器人。
图源备注:图片由AI生成,图片授权服务商Midjourney
这一混乱局面不仅限于Anthropic。Dark Visitors的运营者指出,Apple和Meta等科技巨头最近也添加了新的代理,使得网站所有者几乎不可能手动跟上这些变化。更令人担忧的是,一些AI公司被发现以隐蔽方式抓取不应抓取的网站,或直接忽视robots.txt文件的指令。
这种情况导致了一系列问题。一些网站选择全面阻止爬虫,或只允许少数特定爬虫访问,这可能会影响搜索引擎索引、互联网存档和学术研究。同时,一些网站面临着AI爬虫大规模访问带来的技术和经济压力。例如,维修指南网站iFixit报告称,Anthropic的爬虫在一天内访问了其网站近一百万次。另一家服务提供商Read the Docs则表示,一个爬虫在一天内访问了价值10TB的文件,导致高昂的带宽费用。
数据来源倡议(Data Provenance Initiative)的一项研究进一步揭示了内容创作者和网站所有者在试图阻止AI工具训练时面临的普遍困惑。研究指出,阻止AI抓取工具的责任完全落在网站所有者身上,而爬虫数量的不断增加和频繁变化使这一任务变得异常艰难。
面对这一复杂局面,专家们建议网站管理员应该积极阻止可疑的AI爬虫,即使可能会误伤一些不存在的代理。同时,也有人预测会有更多创作者将内容转移到付费墙后面,以防止不受限制的抓取。