一项新的研究揭示,AI模型正逐渐失去对其网络训练数据的访问权限。这项研究由数据来源倡议组织(Data Provenance Initiative)进行,显示从2023年4月到2024年4月,AI训练数据中完全被屏蔽的内容比例从约1%上升至5-7%。这一趋势可能导致未来的AI模型只能学习到较少、更有偏见和过时的信息。

代码 互联网 电脑

图源备注:图片由AI生成,图片授权服务商Midjourney

这项研究分析了14,000个网络域名的robots.txt文件和使用条款,这些域名是流行AI训练数据集(如C4、RefinedWeb和Dolma)的来源。

研究发现,新闻网站、论坛和社交媒体平台是限制AI数据访问的主要来源,其中新闻网站的屏蔽比例从3%激增至45%。这意味着高质量的新闻内容可能在AI训练数据中占比减少,取而代之的是低质量的企业和电商网站内容。

这一现象对AI开发者来说是一个挑战,因为高质量的数据对训练优秀模型至关重要。然而,高质量内容提供者也可能通过与AI公司达成许可协议,找到新的收入来源

Meta的首席执行官马克·扎克伯格都表示,获取足够的版权数据以训练一个优秀的AI模型几乎是不可能或非常昂贵的。

如果没有公平使用的裁定,这种情况可能会继续加剧。OpenAI近期已与多家出版商达成了数百万美元的交易,以获取其内容用于实时显示和AI训练。预计其他公司也将效仿这一做法,除非法律判决发生重大变化。

划重点:

  • 🛑 数据访问限制加剧:从2023年到2024年,AI训练数据中被屏蔽的内容比例显著增加,新闻网站的屏蔽比例从3%升至45%。

  • 📉 高质量数据减少:高质量新闻内容在AI训练数据中的占比下降,可能被低质量的企业和电商内容取代。

  • 💸 高成本与许可问题:获取足够的数据进行AI训练成本高昂,OpenAI和Meta面临挑战,高质量内容提供者可能通过许可协议找到新的收入来源。