颠覆认知!AI自训练9次崩溃牛津剑桥发现AI潜藏致命弱点

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Jul 25, 2024

272

如果让AI用自己生成的图像进行再训练，结果会怎样?最近，斯坦福大学和加州大学伯克利分校的研究人员们就做了这样一个实验，结果让人大跌眼镜。

研究人员们发现，当AI图像生成模型被重新训练，使用它们自己生成的图像时，这些模型会产生高度扭曲的图像。更糟糕的是，这种扭曲不仅限于用于再训练的文本提示，一旦模型被“污染”，即使之后只用真实图像进行再训练，模型也很难完全恢复。

实验的起点是一个名为Stable Diffusion（SD）的开源模型。研究人员们首先从FFHQ人脸数据集中选取了70，000张高质量的人脸图像，并自动分类。然后，他们使用这些真实图像作为输入，通过Stable Diffusion模型生成了900张与特定人群特征一致的图像。

接下来，研究人员们将这些生成的图像用于模型的迭代再训练。他们发现，不管再训练数据集中自生成图像的比例如何，模型最终都会崩溃，生成的图像质量急剧下降。即使是在再训练数据中只包含3%自生成图像的情况下，模型崩溃的现象依然存在。

实验结果显示，基线版本的Stable Diffusion模型生成的图像与文本提示一致，且视觉质量高。但当模型经过迭代再训练后，生成的图像开始出现语义上的不一致和视觉扭曲。研究人员们还发现，模型崩溃不仅影响图像质量，还导致生成的图像缺乏多样性。

为了验证这一点，研究人员们还进行了控制实验，尝试通过调整生成图像的颜色直方图和移除低质量图像来减轻模型崩溃的影响。但结果表明，这些措施并不能有效阻止模型崩溃。

研究人员们还探讨了模型在被“污染”后是否有可能通过再训练恢复。他们发现，尽管在某些情况下，经过多次迭代再训练后，生成的图像质量有所恢复，但模型崩溃的迹象依然存在。这表明，一旦模型被“污染”，其影响可能是长期的，甚至是不可逆的。

这项研究揭示了一个重要的问题:当前流行的基于扩散的文本到图像生成AI系统对数据“污染”非常敏感。这种“污染”可能无意中发生，比如通过不加选择地从在线资源抓取图像。也可能是有针对性的攻击，比如故意在网站上放置被“污染”的数据。

面对这些挑战，研究人员们提出了一些可能的解决方案，比如使用图像真实性检测器来排除AI生成的图像，或者在生成的图像中加入水印。这些方法虽然不完美，但结合起来可能会显著降低数据“污染”的风险。

这项研究提醒我们，AI技术的发展并非没有风险。我们需要更加谨慎地处理AI生成的内容，确保它们不会对我们的模型和数据集造成长期的负面影响。未来的研究需要进一步探索如何使AI系统对这种类型的数据“污染”更具韧性，或者开发出能够加速模型“治愈”的技术。

论文地址:https://arxiv.org/pdf/2311.12202

微盟发布零售行业首个AI Skill并接入OpenClaw生态

微盟发布零售行业专属AI Skill“Weimob Admin Skills”，接入OpenClaw生态。作为国内SaaS领域首个垂直AI产品，它支持在微盟官网及本地版龙虾中运行，推动零售SaaS从“对话式AI”迈向“执行式AI”。其核心价值在于将复杂的零售行业知识转化为标准化、可复用的能力。

全球首个！中国发布“磐石·禹衡”碳核算大模型：精准刻画全球“碳足迹”

中国科学院上海高等研究院发布全球首个全景式碳排放核算系统“磐石·禹衡碳核算大模型”，实现从“跟跑”到“重构范式”的技术突破。该系统通过数据、算法、算力三位一体，破解传统碳核算知识壁垒高、数据更新慢、分辨率低等瓶颈，构建坚实底层支撑体系。

阿里 AI 架构大调整！李飞飞出任阿里云 CTO，通义实验室晋升“大模型事业部”

阿里巴巴宣布组织架构调整，核心是加速AI建设。CEO吴泳铭通过内部信宣布，设立集团技术委员会并升级业务部门，开启AI全面加速期。最受关注的是全球顶尖科学家李飞飞加盟，出任阿里云CTO，全面负责阿里云技术及AI云基础设施建设。

英国国家数据图书馆计划面临挑战，数据可用性亟待改善

英国政府计划通过国家数据图书馆推动人工智能发展，但开放数据研究所的研究指出，当前公共数据集存在标题误导、元数据缺失等问题，可能影响计划实施。政府已在2024年秋季预算案中确认该计划，承诺为研究与企业提供支持。

AI日报：AI视频神秘黑马Happy Horse亮相；爱诗科技 PixVerse C1 发布；360 打造“虾书”APP

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://app.aibase.com/zh1、超越Seedance2.0！8、智谱发布GLM-5.1:SWE-bench评分全球领跑，模型单价上调10%智谱发布全新大模型GLM-5.1，在SWE-benchPro基准测试中表现优异，同时在价格上实现与国际顶尖厂商的对齐，标志着行业竞争重心转向性能溢价。

程序员用AI三天生成违章举报网页版，App预计两个月内上线

成都程序员蒲海洋开发了一款AI视觉识别车辆违章自动举报程序，旨在提升交通监督效率。该项目构思于2025年，演示版一周完成，网页版借助AI工具三天生成。目前安卓与iOS客户端开发进度达80%，预计两三个月内上线应用商店。核心技术优势在于将传统举报流程自动化。

淘宝商家的“读心术”来了！网萌科技魔方 AI 质检 VOC 入驻服务市场

上海网萌公司推出“魔方 AI 质检 VOC”工具，已入驻淘宝服务市场。该工具融合AI自动化质检与用户洞察，为商家提供一站式服务风控。其核心在于双引擎能力：既充当“质检员”监控客服全链路，又作为“分析师”深入洞察用户反馈，重塑电商服务流程。

AI新闻资讯

最新AI日报

AI 商用·开源产品库

AI 产品排行榜

AI产品提交

AI工具导航

GEO品牌监测平台

GEO品牌AI能见度体检

GEO排名查询工具

GEO推广链接检测

GEO排名优化系统

GEO 大模型推荐优化

MCP服务端

MCP客户端

MCP教程与实践

MCP排行榜

MCP服务提交

MCP实验场

MCP服务调试器

大模型API聚合平台

模型库

模型供应商

大模型排行榜

大模型选型对比

大模型费用计算器

大模型竞技场

模型个人电脑配置检测器

模型部署服务器配置计算器

颠覆认知!AI自训练9次崩溃 牛津剑桥发现AI潜藏致命弱点

AIbase基地

本文来自AIbase日报

相关AI新闻推荐

微盟发布零售行业首个AI Skill并接入OpenClaw生态

全球首个！中国发布“磐石·禹衡”碳核算大模型：精准刻画全球“碳足迹”

阿里 AI 架构大调整！李飞飞出任阿里云 CTO，通义实验室晋升“大模型事业部”

​英国国家数据图书馆计划面临挑战，数据可用性亟待改善

马斯克对 OpenAI 提起诉讼，要求罢免 CEO 奥尔特曼职务

AI日报：AI视频神秘黑马Happy Horse亮相；爱诗科技 PixVerse C1 发布；360 打造“虾书”APP

Gemini 更新助力危机用户更快获取心理健康支持

程序员用AI三天生成违章举报网页版，App预计两个月内上线

美团李树斌：餐饮商家拥抱 AI 的第一步是“信息线上化”

淘宝商家的“读心术”来了！网萌科技魔方 AI 质检 VOC 入驻服务市场

相关AI新闻推荐

微盟发布零售行业首个AI Skill并接入OpenClaw生态

全球首个！中国发布“磐石·禹衡”碳核算大模型：精准刻画全球“碳足迹”

阿里 AI 架构大调整！李飞飞出任阿里云 CTO，通义实验室晋升“大模型事业部”

​英国国家数据图书馆计划面临挑战，数据可用性亟待改善

马斯克对 OpenAI 提起诉讼，要求罢免 CEO 奥尔特曼职务

AI日报：AI视频神秘黑马Happy Horse亮相；爱诗科技 PixVerse C1 发布；360 打造“虾书”APP

Gemini 更新助力危机用户更快获取心理健康支持

程序员用AI三天生成违章举报网页版，App预计两个月内上线

美团李树斌：餐饮商家拥抱 AI 的第一步是“信息线上化”

淘宝商家的“读心术”来了！网萌科技魔方 AI 质检 VOC 入驻服务市场

颠覆认知!AI自训练9次崩溃牛津剑桥发现AI潜藏致命弱点

英国国家数据图书馆计划面临挑战，数据可用性亟待改善

英国国家数据图书馆计划面临挑战，数据可用性亟待改善