近日,Reddit首席执行官史蒂夫·哈夫曼在接受采访时表示,该公司正寻求与各大科技公司达成数据使用协议,要求想继续抓取Reddit数据的公司必须付费。这一举措来源于Reddit与谷歌和OpenAI已达成的协议,哈夫曼希望其他公司也能效仿。
哈夫曼特别点名微软、Anthropic和Perplexity拒绝就数据使用进行谈判,称"屏蔽这些公司真是太麻烦了"。他指出,如果没有相关协议,Reddit无法控制或了解其数据的使用方式和用途,这迫使公司不得不屏蔽那些不愿接受条款的企业。
为应对这一局面,Reddit近几个月来加大了对网络爬虫的限制。7月初,该公司更新了robots.txt文件,以阻止未签订协议的爬虫访问。随后,用户发现Reddit内容仅出现在与之有协议的Google搜索结果中,而在Bing等其他搜索引擎中消失。
哈夫曼批评微软在未经授权的情况下使用Reddit数据训练AI,并通过必应API将内容出售给其他搜索引擎。他引用微软AI首席执行官的言论,称互联网上的公共数据是"免费软件"。哈夫曼认为,这种观点代表了部分科技公司对互联网内容的态度。
针对Reddit内容从Bing消失一事,微软搜索主管Jordi Ribas表示这是由于Reddit阻止Bing抓取其网站。微软发言人强调,公司尊重网站提供商对内容使用的指示。
哈夫曼指出,传统搜索引擎的价值交换模式已发生变化。随着搜索、总结和AI训练的融合,单纯以流量换取内容的模式变得复杂。他表示,Reddit正与传统媒体出版商一道,寻求为生成式AI提供信息的付费模式。
对此,Anthropic表示已将Reddit列入爬虫黑名单,尊重其robots.txt设置。微软拒绝就此事发表评论,Perplexity则未回应置评请求。
这一争议凸显了数字时代内容价值和使用权的复杂性,也预示着科技公司与内容提供商之间可能出现新的合作模式。