OpenAI 发布了网络爬虫 GPTBot 的规范,并表示收集的内容将用于改进未来的模型。网站发布者可以拒绝提供素材,而一旦数据被爬取,就很难从公共数据集中删除。一些网站已经采取措施阻止 OpenAI 的爬虫,但此举引发了更多关于数据隐私和合规性的讨论。OpenAI 的竞争对手谷歌提议重新设计爬虫协议的运作方式,以减少数据归属权纠纷。总体而言,这篇文章讨论了 OpenAI 的爬虫规范以及相关的法律和隐私问题。