最近,LAION 宣布推出经过安全审查的新版本 AI 训练数据集 ——Re-LAION-5B。这个新数据集在之前广受欢迎的 LAION-5B 基础上进行了重大改进,特别是在清理与儿童性虐待材料(CSAM)相关的链接方面。LAION 表示,Re-LAION-5B 是全球首个在文本 - 图像对数据集上全面清除已知 CSAM 链接的网页规模数据集。
LAION 的发言人提到,Re-LAION-5B 主要分为两个版本:Re-LAION-5B Research 和 Re-LAION-5B Research-Safe。在这个新数据集中,总共移除了2,236个链接,这些链接都是根据与儿童保护组织合作提供的名单进行检查的。其中,有1,008个链接是在斯坦福互联网观察所于2023年12月发布的报告中确认的。
值得一提的是,LAION 指出,很多已知的儿童性虐待材料链接可能已经不再活跃,因为相关机构一直在努力从公共互联网中删除这些内容。因此,这个数字代表了一个可能的上限,实际上能够指向的 CSAM 链接可能更少。Re-LAION-5B 目前包含了55亿对文本和图像,第三方可以利用这些元数据来清理现有的 LAION-5B 衍生作品,生成差异并移除所有匹配的内容。
LAION 希望,通过发布 Re-LAION-5B,能够为清理网页规模的数据集设定一个新的安全标准。这一更新是在原始 LAION-5B 数据集曾因包含患者图像而受到批评后进行的。与此同时,LAION 还提到,CSAM 在 AI 训练数据集中的存在问题十分严重,尤其是一些经过训练的系统甚至被用来生成 CSAM 内容。
据互联网观察基金会(IWF)报告,自2023年秋季以来,AI 生成的儿童性虐待材料出现了大幅增长。这种 AI 内容的增加不仅给真实的儿童虐待案件调查带来了困扰,也导致社交媒体平台自动生成的关于 CSAM 的报告数量激增,进一步加剧了问题的复杂性。
划重点:
🌟 Re-LAION-5B 是全球首个在文本 - 图像对数据集上全面清除 CSAM 链接的网页规模数据集。
🔗 移除了2,236个链接,其中包括来自儿童保护组织的1,008个已知链接。
🛡️ LAION 希望新数据集能为清理网页规模数据集树立新的安全标准。