德国研究机构LAION创建了用于训练Stable Diffusion和其他生成式 AI 模型的数据,该机构发布了一个新数据集,声称该数据集“已彻底清除已知的疑似儿童性虐待材料 (CSAM) 链接”。

新数据集 Re-LAION-5B 实际上是旧数据集 LAION-5B 的重新发布,但根据非营利组织互联网观察基金会、人权观察、加拿大儿童保护中心和现已解散的斯坦福互联网观察站的建议实施了“修复”。它有两个版本可供下载,分别是 Re-LAION-5B Research 和 Re-LAION-5B Research-Safe(还删除了额外的 NSFW 内容),LAION 表示,这两个版本都过滤了数千个已知(和“可能”)CSAM 链接。

LAION 在一篇博客文章中写道:“LAION 从一开始就致力于从其数据集中删除非法内容,并从一开始就采取了适当的措施来实现这一目标。” “LAION 严格遵守非法内容一旦被发现就会尽快删除的原则。”

需要注意的是,LAION 的数据集不包含图像,也从未包含过图像。相反,它们是 LAION 整理的图像链接和图像替代文本的索引,所有这些都来自另一个数据集——Common Crawl,其中包含抓取的网站和网页。

人工智能 机械手臂 AI (6)

图源备注:图片由AI生成,图片授权服务商Midjourney

Re-LAION-5B 的发布是在2023年12月斯坦福互联网观察站进行调查之后发布的,调查发现 LAION-5B(特别是名为 LAION-5B400M 的子集)包含至少1,679个从社交媒体帖子和流行成人网站上抓取的非法图片链接。根据报告,400M 还包含“各种不当内容”的链接,包括色情图片、种族主义诽谤和有害的社会刻板印象。

尽管该报告的斯坦福大学合著者指出,删除违规内容会很困难,而且 CSAM 的存在不一定会影响在数据集上训练的模型的输出,但 LAION 表示将暂时将 LAION-5B 下线。

斯坦福报告建议,在 LAION-5B 上训练的模型“应弃用并在可行的情况下停止分发”。或许与此相关,AI 初创公司 Runway最近从 AI 托管平台 Hugging Face 上撤下了其 Stable Diffusion1.5模型;我们已联系该公司以获取更多信息。(Runway 于2023年与 Stable Diffusion 背后的公司 Stability AI 合作,帮助训练原始的 Stable Diffusion 模型。)

新的 Re-LAION-5B 数据集包含约55亿个文本图像对,并根据 Apache2.0许可发布,LAION 表示第三方可以使用元数据来清理 LAION-5B 的现有副本,方法是删除匹配的非法内容。

LAION 强调其数据集用于研究,而非商业目的。但如果历史可以说明,这不会阻止一些组织。除了 Stability AI,谷歌还曾使用 LAION 数据集来训练其图像生成模型。

LAION 在帖子中继续说道:“在与我们的合作伙伴提供的链接和图像哈希列表匹配后,总共删除了2,236个 [指向疑似 CSAM 的] 链接。” “这些链接还包含了2023年12月斯坦福互联网观测站报告中发现的1008个链接……我们强烈敦促所有仍在使用旧 LAION-5B 的研究实验室和组织尽快迁移到 Re-LAION-5B 数据集。”