Reddit 最近宣布将加强其数据保护措施,直接针对 AI 公司和其他数据抓取工具。这一举动标志着社交媒体平台与人工智能行业之间日益紧张的关系。
Reddit 计划更新其机器人排除协议(robots.txt 文件),以阻止未经授权的平台自动抓取。公司发言人强调,这一更新并非针对特定公司,而是旨在"保护 Reddit 的同时保持互联网的开放"。Reddit 表示,这些变化不会影响"诚信行为者",如互联网档案馆和研究人员。
图源备注:图片由AI生成,图片授权服务商Midjourney
此举似乎是对最近有关 AI 公司,如 Perplexity,绕过网站 robots.txt 协议的报道的回应。Perplexity 的 CEO 曾在接受《Fast Company》采访时称该协议"不是一个法律框架",引发了对 AI 公司数据获取行为的争议。
Reddit 的立场很明确:任何使用自动代理访问其平台的公司都必须遵守其条款和政策,并与 Reddit 进行沟通。这可能暗示了 Reddit 希望与 AI 公司建立类似于其与 Google 和 OpenAI 的许可协议。
这并非 Reddit 首次在数据访问问题上采取强硬立场。去年,公司开始向 AI 公司收取 API 使用费,并与部分 AI 公司达成了许可协议,允许它们使用 Reddit 的数据训练模型。这些协议已成为 Reddit 重要的收入来源。
Reddit 的这一举动反映了社交媒体平台在保护用户生成内容和寻求新的收入模式之间的平衡。随着 AI 技术的快速发展,类似的数据访问争议可能会在其他平台上演,引发更广泛的讨论关于数据所有权、使用权和价值分配的问题。