合成数据有毒！Meta团队证实：1%数据就能让大模型完全崩溃

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年10月14号 10:41

252

最近AI圈子发生了一件怪事，就像一个吃播博主突然开始吃自己做的菜，而且越吃越上瘾，菜也越来越难吃。这事儿说起来还挺吓人，专业的术语叫模型崩溃（model collapse）。

模型崩溃是啥?简单来说，就是AI模型在训练过程中，如果大量使用自己生成的数据，就会陷入一个恶性循环，导致模型生成的质量越来越差，最终完犊子。

这就像一个封闭的生态系统，AI模型就是这个系统里的唯一生物，它生产的食物就是数据。一开始，它还能找到一些天然的食材（真实数据），但随着时间的推移，它开始越来越依赖自己生产的“人造”食材(合成数据)。问题是，这些“人造”食材营养不良，而且还带有模型自身的一些缺陷。吃多了，AI模型的“身体”就垮了，生成的东西也越来越离谱。

这篇论文就研究了模型崩溃现象，并试图回答两个关键问题:

模型崩溃是不可避免的吗?能不能通过混合真实数据和合成数据来解决问题?
模型越大，是不是越容易崩溃?

为了研究这些问题，论文作者们设计了一系列实验，并用随机投影模型来模拟神经网络的训练过程。他们发现，就算只使用一小部分合成数据（比如1%），也可能导致模型崩溃。更糟糕的是，随着模型规模的增大，模型崩溃的现象会更加严重。

这就好比吃播博主为了吸引眼球，开始尝试各种奇葩食材，结果吃坏了肚子。为了挽回损失，他只能加大食量，吃更多更奇葩的东西，结果肚子越来越糟糕，最终只能退出吃播界。

那么，我们应该如何避免模型崩溃呢?

论文作者们提出了一些建议:

优先使用真实数据:真实数据就像天然食材，营养丰富，是AI模型健康成长的关键。
谨慎使用合成数据:合成数据就像人造食材，虽然可以补充一些营养，但不能过度依赖，否则会适得其反。
控制模型规模:模型越大，胃口就越大，越容易吃坏肚子。在使用合成数据时，要控制模型的规模，避免过度喂养。

模型崩溃是AI发展过程中遇到的一个新挑战，它提醒我们，在追求模型规模和效率的同时，也要关注数据的质量和模型的健康。只有这样，才能让AI模型持续健康地发展，为人类社会创造更大的价值。

论文：https://arxiv.org/pdf/2410.04840

Figure AI推出革命性双机协作AI模型Helix，赋能人形机器人新未来

在机器人技术领域，美国创业公司 Figure AI 于近期发布了一款名为 Helix 的端侧大模型，标志着人形机器人控制技术的重大突破。Helix 是首个能够对整个人形机器人上半身（包括头部、躯干、手腕和手指）进行高频率、连续控制的视觉 - 语言 - 动作(VLA)模型。这意味着，机器人可以在无需大量训练的情况下，直接根据自然语言指令执行任务。Figure AI 通过建立两个互补的系统来解决视觉语言模型的通用性和速度之间的矛盾。系统一是一个快速反应的视觉运动策略模型，能够每秒执行200次精确动

新一代生物AI模型Evo 2揭开基因密码，助力疾病研究

近日，由 Arc Institute 和 Nvidia 联合开发的 Evo2生物 AI 模型正式发布。这一基础模型基于超过10万种生物的 DNA 数据，旨在深度解码生物学中的各种复杂现象。Evo2能够在不同生物体的基因序列中识别出研究者们需要花费多年时间才能发现的模式，极大提升了疾病相关突变的识别能力，并可以设计出与简单细菌相当的全新基因组。Evo2的训练涉及超过93万亿个核苷酸的处理，远超其前身 Evo1。其开发团队来自 Nvidia 和位于加州帕洛阿尔托的非营利生物医学研究机构 Arc Institute，还与斯坦福大学、加州

警惕！马斯克的新AI模型Grok 3被曝存在严重安全漏洞，黑客可轻松操控！

AI 安全公司 Adversa AI 发布了一项令人震惊的报告，称埃隆・马斯克的创业公司 xAI 刚发布的 Grok3模型在网络安全方面存在重大漏洞。Adversa 的研究团队发现，这款最新的 AI 模型容易受到 “简单的越狱攻击”，这可能使不法分子能够获取诸如 “如何诱骗儿童、处理尸体、提取 DMT 以及制造炸弹” 等敏感信息。更糟糕的是，Adversa 的首席执行官兼联合创始人亚历克斯・波利亚科夫表示，这次漏洞不仅仅是越狱攻击那么简单，他们还发现了一种新的 “提示泄露” 缺陷，暴露了 Grok 模型的完整系

AI新闻资讯

合成数据有毒！Meta团队证实：1%数据就能让大模型完全崩溃

AIbase基地

相关AI新闻推荐

Figure AI推出革命性双机协作AI模型Helix，赋能人形机器人新未来

新一代生物AI模型Evo 2揭开基因密码，助力疾病研究

xAI称已面向所有用户免费提供 Grok3 直到他们服务器崩溃

警惕！马斯克的新AI模型Grok 3被曝存在严重安全漏洞，黑客可轻松操控！