最近,Trilegangers 首席执行官 Oleksandr Tomchuk 收到警报,称其公司的电子商务网站瘫痪了。经过调查后,他发现罪魁祸首是来自 OpenAI 的一个机器人,它正不懈地试图抓取他整个庞大的网站。该网站拥有超过65,000种产品,每种产品都有一页,至少有三张照片。OpenAI 发送了“数万”个服务器请求,试图下载全部内容,数十万张照片及其详细描述。
汤姆丘克表示,OpenAI 的爬虫程序正在摧毁他们的网站,这基本上是一次 DDoS 攻击。该公司将3D 对象文件以及照片(从手到头发、皮肤和全身)出售给3D 艺术家、视频游戏制作者以及任何需要以数字方式重现真实人类特征的人。
Trilegangers 的网站就是其业务。该公司花了十多年时间,建立了所谓的网络上最大的“人体数字替身”数据库,即从真实人体模型扫描而来的3D 图像文件。
汤姆丘克的团队总部位于乌克兰,但也获得了美国佛罗里达州坦帕市的许可,其网站上有一个服务条款页面,禁止机器人未经许可拍摄其图像。但仅凭这一点并没有起到什么作用。网站必须使用正确配置的 robot.txt 文件,其中的标签明确告诉 OpenAI 的机器人 GPTBot 不要打扰网站。
Robot.txt,又称机器人排除协议,是为了告诉搜索引擎网站在索引网页时不要抓取什么内容而创建的。OpenAI 在其信息页面上表示,当配置了自己的一组禁止抓取标签时,它会尊重此类文件,但它也警告说,其机器人可能需要长达24小时才能识别更新的 robot.txt 文件。
汤姆丘克表示,如果某个网站没有正确使用 robot.txt,OpenAI 和其他公司就会认为他们可以随心所欲地抓取数据。这不是一个可选系统。
更糟糕的是,Trilegangers 不仅在美国工作时间内被 OpenAI 的机器人强制下线,而且 Tomchuk 预计,由于该机器人的所有 CPU 和下载活动,AWS 账单还会大幅增加。
Robot.txt 也不是万全之策。AI 公司自愿遵守它。去年夏天,另一家 AI 初创公司 Perplexity 因一些证据表明 Perplexity 没有遵守它而受到 Wired 调查的关注,这一事件相当著名。
汤姆丘克表示,他没有找到联系 OpenAI 并询问的方法。OpenAI 没有回应 TechCrunch 的置评请求。OpenAI 迄今未能提供其长期承诺的选择退出工具。
对于 Triplegangers 来说,这是一个特别棘手的问题。“我们从事的业务中,权利问题相当严重,因为我们扫描的是真人,”他说。根据欧洲 GDPR 等法律,“他们不能随便在网上拍下任何人的照片然后使用。”
讽刺的是,OpenAI 机器人的贪婪让 Triplegangers 意识到了它是多么的暴露。他说,如果它更温柔地刮擦,Tomchuk 永远不会知道。
“这很可怕,因为这些公司似乎利用了一个漏洞来抓取数据,他们说‘如果你用我们的标签更新你的 robot.txt,你可以选择退出’,”汤姆丘克说,但这让企业主有责任了解如何阻止他们。
他希望其他小型在线企业知道,发现人工智能机器人是否正在窃取网站的版权资产的唯一方法就是主动寻找。他当然不是唯一一个被人工智能机器人恐吓的人。其他网站的所有者最近告诉《商业内幕》 OpenAI 机器人如何破坏他们的网站并增加他们的 AWS 费用。
到2024年,这一问题将进一步恶化。数字广告公司 DoubleVerify 的最新研究发现,人工智能爬虫和抓取工具导致2024年“一般无效流量”增加86%,即并非来自真实用户的流量。