最近,Meta 公司在人工智能训练方面的做法受到广泛关注。根据一项诉讼,这家公司被指控在未获得授权的情况下,下载了大量盗版电子书和文章,用于训练其人工智能模型。此次事件的核心是几封泄露的电子邮件,这些邮件为 Meta 的行为提供了进一步的证据。

版权,盗版

邮件中显示,Meta 承认下载了一个名为 LibGen 的争议性大型数据集,该数据集中包含了数千万本盗版书籍。根据原告提交的法庭文件,Meta 通过名为 Anna's Archive 的网站,从多个影子图书馆下载了至少81.7TB 的数据,其中包括来自 Z-Library 和 LibGen 的至少35.7TB 数据。此外,Meta 之前还从 LibGen 下载了80.6TB 的数据。这些数字显示,Meta 公司在这一非法行为上的规模是惊人的。原告指出,尽管其他小规模的盗版行为已导致法律追究,但 Meta 的行为却更加严重。

在邮件的内容中,Meta 的员工也表达了对其行为的法律风险的担忧。2023年4月,该公司研究工程师尼古拉・巴什利科夫曾表示:“用公司的笔记本电脑下 BT 感觉不妥。” 到了2023年9月,巴什利科夫对此的反对声音更加明显,并咨询了法律团队。他指出,“使用 Torrents 意味着对文件进行‘播种’,即对外共享内容。这在法律上是不允许的。” 然而,尽管有这样的警告,Meta 似乎仍决定隐瞒其下载和共享活动,并通过编辑设置尽量减少 “播种” 行为的可追溯性。

据称,Meta 还试图通过将数据集下载到非 Meta 服务器上,来降低被追溯到其服务器的风险。这一系列的行为引发了外界对 Meta 公司在数据使用和版权方面的深刻反思。

划重点:

📚 Meta 公司被指控非法下载81.7TB 盗版书籍,涉嫌用于 AI 训练。

⚖️ 员工对法律风险表示担忧,曾警告下载行为可能触犯法律。

🔍 Meta 试图通过隐瞒和使用非公司服务器来规避法律责任。