你可曾想过,你的研究论文可能已经薅去训练AI了。没错,许多学术出版商正在将他们的成果 “打包出售” 给开发 AI 模型的科技公司,毫无疑问,这一举动在科研界引发了不小的波澜,尤其是当作者们对此一无所知的时候。专家们表示,如果你的尚未被某个大型语言模型(LLM)使用,那么它很可能也会在不久的将来被 “利用”。

近期,英国的学术出版商泰勒与弗朗西斯(Taylor & Francis)与微软达成了一项价值1000万美元的交易,允许这家科技巨头使用他们的研究数据来提升 AI 系统的能力。而早在六月,美国出版商威利(Wiley)也与某家公司达成了一项交易,获得2300万美元的收益,作为他们的内容被用来训练生成式 AI 模型的回报。

如果一篇论文在网上可以找到,无论是开放获取还是付费墙后面的内容,都很可能已经被喂进了某个大型语言模型。华盛顿大学的 AI 研究员 Lucy Lu Wang 表示:“一旦一篇论文被用于训练模型,就无法在模型训练后将其移除。”

image.png

大型语言模型需要大量的数据来训练,这些数据通常是从互联网上抓取的。通过分析数以亿计的语言片段,这些模型能够学习并生成流畅的文本。学术论文由于其信息密度高且篇幅长,成为了 LLM 开发者非常宝贵的 “宝藏”。这样的数据帮助 AI 在科学领域做出更好的推理。

近来,购买高质量数据集的趋势正在上升,许多知名媒体和平台也开始纷纷与 AI 开发者合作,出售他们的内容。考虑到如果不达成协议,很多作品可能会被无声无息地抓取,未来这种合作只会越来越普遍。

然而,有些 AI 开发者,如大型人工智能网络(Large-scale Artificial Intelligence Network),选择保持其数据集的开放性,但许多开发生成式 AI 的公司却对训练数据保持神秘,“我们对他们的训练数据一无所知。” 专家们认为,像 arXiv 这样的开放源代码平台和 PubMed 等数据库无疑是 AI 公司抓取的热门目标。

想要证明某篇论文是否出现在某个 LLM 的训练集中并不简单。研究人员可以用论文中不寻常的句子来测试模型输出是否与原文匹配,但这并不能完全证明该论文没有被使用,因为开发者可以对模型进行调整,以避免直接输出训练数据。

image.png

即便证明了某个 LLM 使用了特定文本,接下来又会发生什么?出版商们声称,未获得授权使用受版权保护的文本便构成侵权,但也有反对意见认为,LLM 并不是在复制文本,而是通过分析信息内容来生成新的文本。

目前在美国,一起关于版权的诉讼正在进行,这可能成为一个具有里程碑意义的案例。《纽约时报》正在起诉微软和 ChatGPT 的开发者 OpenAI,指控他们在未获得许可的情况下使用其新闻内容来训练模型。

许多学者对他们的作品被纳入 LLM 的训练数据表示欢迎,尤其是当这些模型能提升研究的准确性时。不过,这并不是每个职业的研究者都能泰然处之,许多人感到自身工作受到威胁。

总的来说,现阶段个别科研作者在出版商做出出售决定时几乎没有发言权,而对于已经公开的文章,如何分配信用以及是否被使用都缺乏明确的机制。一些研究者对此表示挫败:“我们希望有 AI 模型的帮助,但也希望有一个公平的机制,现在我们还没有找到这样的解决方案。”

参考资料:

https://www.nature.com/articles/d41586-024-02599-9

https://arxiv.org/pdf/2112.03570