在人工智能的飞速发展背后,一些科技巨头却悄悄采取了颇具争议的手段。他们不仅“吸干”了书籍、网站、照片和社交媒体帖子,甚至在创作者不知情的情况下,大量使用了YouTube视频来训练他们的AI模型。

谁动了我的视频?

根据Proof News的调查,包括Anthropic、英伟达、苹果和Salesforce在内的硅谷巨头,使用了来自173,536个YouTube视频的字幕数据来训练AI。这些视频来自超过48,000个频道,尽管YouTube明确禁止未经许可从其平台抓取材料。

youtube

这些数据集被称为“YouTube Subtitles”,包含了来自教育和在线学习频道如Khan Academy、MIT和哈佛的视频字幕。华尔街日报、NPR和BBC的视频也被用来训练AI,甚至包括《Stephen Colbert晚间秀》、《John Oliver上周今夜秀》和《Jimmy Kimmel Live》。

Proof News还发现,包括MrBeast(拥有2.89亿订阅者,2个视频被用于训练)、Marques Brownlee(1900万订阅者,7个视频被用于训练)、Jacksepticeye(近3100万订阅者,377个视频被用于训练)和PewDiePie(1.11亿订阅者,337个视频被用于训练)在内的YouTube超级明星的视频也被用于训练AI。一些用于训练AI的材料甚至宣扬了“地球是平的”等阴谋论。

创作者的愤怒

“没有人来跟我说,‘我们想用这个’”,《David Pakman Show》的主持人David Pakman说。他的频道拥有超过200万订阅者和超过20亿次观看,但近160个视频被纳入了YouTube Subtitles训练数据集。

Pakman的团队全职工作,每天发布多个视频,还制作播客、TikTok视频和其他平台的内容。如果AI公司为此付费,Pakman表示他应该因为使用他数据而得到补偿。他指出,一些媒体公司最近已经签订了协议,以获得使用他们作品训练AI的报酬。

Nebula的CEO Dave Wiskus更是直言不讳地称:“这是盗窃”。Nebula是一家部分由创作者拥有的流媒体服务,一些创作者的作品被从YouTube上取走,用于训练AI。

数据集的“金矿”

AI公司通过获取更高质量的数据来相互竞争,这是他们保密数据来源的原因之一。《纽约时报》今年早些时候报道称,谷歌(拥有YouTube)也使用了平台上的视频文本来训练其模型。作为回应,一位发言人表示,其使用是经过YouTube创作者同意的。

Proof News的调查还发现,OpenAI未经授权使用了YouTube视频。公司代表既未确认也未否认这一发现。

法律和伦理的挑战

YouTube Subtitles和其他类型的语音转文本数据是潜在的“金矿”,因为它们可以帮助训练模型复制人们的谈话和对话方式。然而,这也引发了关于版权和伦理的争议。许多创作者担心,他们的工作被用于训练AI,最终可能会取代他们的工作。

Proof News试图联系这篇文章中提到的频道的所有者。许多人没有回应评论请求。我们采访的创作者中,没有人意识到他们的信息被取走,更不用说是如何被使用了。

未来的不确定性

许多创作者对未来的道路感到不确定。全职YouTuber定期巡逻,寻找未经授权使用他们作品的情况,并定期提交删除通知。一些人担心,AI迟早能够生成与他们制作的内容相似的内容,甚至直接复制。

《David Pakman Show》的创作者Pakman最近在TikTok上看到了AI的力量。他发现了一个被标记为Tucker Carlson剪辑的视频,但当他观看时,他被震惊了。它听起来像Carlson,但字字句句都是Pakman在他的YouTube节目中所说的,甚至语调都一模一样。他同样震惊的是,视频中只有一个评论者似乎意识到这是假的——一个模仿Carlson的声音克隆Pakman的剧本。

“这将是一个问题,”Pakman在他制作的关于假视频的YouTube视频中说。“你几乎可以用任何人来做这个。”

EleutherAI的联合创始人Sid Black在GitHub上写道,他通过使用脚本创建了YouTube Subtitles。该脚本以与观看视频时YouTube观众的浏览器下载它们的方式下载YouTube的字幕。根据GitHub上的文档,Black使用了495个搜索词来收集视频,包括“有趣的视频博主”、“爱因斯坦”、“黑色新教徒”、“保护性社会服务”、“信息战”、“量子色动力学”、“Ben Shapiro”、“维吾尔人”、“水果主义者”、“蛋糕食谱”、“纳斯卡线条”和“地球是平的”。

尽管YouTube的服务条款禁止通过“自动化手段”访问其视频,但超过2000名GitHub用户已经收藏或认可了该代码。

“如果YouTube想阻止这个模块工作,有很多方法可以做到这一点,”机器学习工程师Jonas Depoix在GitHub上的讨论中写道,他在那里发布了Black用来访问YouTube字幕的代码。“到目前为止,这还没有发生。”

在一封电子邮件中,Depoix对Proof News表示,他自从几年前作为大学生为一个项目编写代码以来就没有使用过该代码,并对人们发现它有用感到惊讶。他拒绝回答有关YouTube规则的问题。

Google发言人Jack Malon在一封电子邮件中回应了评论请求,称该公司多年来采取了“行动以防止滥用、未经授权的抓取”。他没有回应有关其他公司使用这些材料作为训练数据的问题。

AI公司使用的视频中包括来自《Einstein Parrot》的146个视频,该频道拥有近15万订阅者。非洲灰鹦鹉的看护人Marcia(她不愿透露姓氏,担心危及这只著名鹦鹉的安全)最初认为,AI模型吸收了模仿鹦鹉的话语是有趣的。

“谁会想用鹦鹉的声音?”Marcia说。“但后来,我知道他说话非常好。他用我的声音说话。所以他在模仿我,然后AI在模仿鹦鹉。”

一旦数据被AI吸收,就无法“遗忘”。Marcia对鹦鹉的信息可能被以未知的方式使用感到困扰,包括创建数字副本鹦鹉,并担心让它说脏话。

“我们正在进入未知领域,”Marcia说。

参考链接:

https://www.wired.com/story/youtube-training-data-apple-nvidia-anthropic/

https://arstechnica.com/ai/2024/07/apple-was-among-the-companies-that-trained-its-ai-on-youtube-videos/