研究人员开发了新 LLM 越狱方法，成功率高达 65%

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年10月24号 10:03

291

近日，网络安全公司 Palo Alto Networks 的 Unit42研究团队发布了一项令人瞩目的研究，揭露了一种名为 “Deceptive Delight”的新型越狱方法。

这个方法能够在仅仅两到三次交互中，就成功诱导大型语言模型（LLM）生成有害内容，其成功率高达65%。这一发现为保护 LLM 的安全性敲响了警钟。

机器人 AI 人工智能223

图源备注：图片由AI生成，图片授权服务商Midjourney

研究团队在测试中分析了多达8000个案例，并评估了八种不同的语言模型。在这个越狱技术的第一步，攻击者首先会要求 LLM 生成一个叙述，这个叙述包含两个无害的话题和一个潜在的危险话题。举个例子，攻击者可能会要求模型将家庭聚会、孩子出生与制造莫洛托夫鸡尾酒联系起来。这个步骤的目的是为了让模型在无意中触碰到有害内容的边界。

接下来，攻击者会进行第二步，要求 LLM 对叙述中的每个话题进行更深入的阐述。根据研究，很多时候这个步骤会引导模型生成与危险话题相关的有害内容。如果攻击者再进行第三步，专门要求模型进一步扩展危险话题，成功率将提高到平均65%，而且生成的有害内容在危害性和质量上分别提升了21% 和33%。

研究人员还指出，在测试过程中，他们特意去除了模型内置的内容过滤层，以更好地评估模型的安全防护能力。在没有这些过滤器的情况下，模型生成有害内容的概率仍然相对较低，平均只有5.8%。在所测试的八种模型中，某一模型的成功率甚至达到了惊人的80.6%，而最低则为48%。

为此，Unit42提出了针对这种多轮越狱攻击的防御建议。他们认为，增加内容过滤器作为保护措施，以及设计更严密的系统提示，可以有效引导 LLM 避免生成有害内容。这些系统提示应明确规定模型的角色和安全话题的界限，帮助模型保持在安全的轨道上。

划重点:
🔍 新型越狱方法 “欺骗愉悦” 可以在两到三次交互中诱导 LLM 生成有害内容，成功率高达65%。
📈 研究分析了8000个案例，发现不同模型的成功率差异明显，单一模型成功率最高可达80.6%。
🛡️ 为应对越狱攻击，建议增加内容过滤器和清晰的系统提示，以增强模型的安全性和防护能力。

深推理模型崛起！Together AI融资3.05亿美元助推GPU需求

在 AI 行业，Together AI 最近宣布完成了一轮3.05亿美元的 B 轮融资，这一消息引起了广泛关注。该公司的崛起与其新推出的深度理模型 DeepSeek-R1密切相关。与最初的担忧相反，许行业专家认为，深度推理的进步并没有降低对基础设施的需求，反而在不断提升这一需求。图源备注：图片由AI生成，图片授权服务商Midjourney自2023年成立以来，Together AI 旨在简化企业对开源大型语言模型（LLM）的使用。随着时间的推移，该公司逐步扩展其平台，提供了一个名为 “Together 平台” 的解决方案，支持在虚

AI大语言模型幻觉排行榜：Gemini 2.0 Flash幻觉最低

近日，Vectara 发布了一份名为 “幻觉排行榜” 的报告，比较了不同大型语言模型（LLM）在总结短文档时产生幻觉的表现。这份排行榜利用了 Vectara 的 Hughes 幻觉评估模型(HHEM-2.1)，该模型定期更新，旨在评估这些模型在摘要中引入虚假信息的频率。根据最新数据，报告指出了一系列流行模型的幻觉率、事实一致性率、应答率以及平均摘要长度等关键指标。在最新的排行榜中，谷歌的 Gemini2.0系列表现出色，尤其是 Gemini-2.0-Flash-001，以0.7% 的低幻觉率位居榜首，显示出其在处理文档时几乎没有引

微软发布 OmniParser V2.0：把屏幕截图转化成LLM可处理的结构化格式

微软近日发布了 OmniParser V2.0，这是一个旨在将用户界面（UI）截图转换为结构化格式的全新解析工具。OmniParser 能够提高基于大型语言模型(LLM)的 UI 代理的性能，帮助用户更好地理解和操作屏幕上的信息。该工具的训练数据集包括一个可交互图标检测数据集，该数据集从热门网页中精心挑选并自动注释，以突出可点击和可操作的区域。此外，还有一个图标描述数据集，旨在将每个 UI 元素与其对应的功能相结合。在 V2.0版本中，OmniParser 进行了显著改进，更新后的数据集更大且更干净，图标的

Meta 创新推出 “连续概念混合” 框架，推动 Transformer 预训练新革命

近年来，随着大型语言模型（LLMs）的快速发展，自然语言处理领域经历了前所未有的变革。这些技术如今广泛应用于代码助手、搜索引擎和个人 AI 助手等场景，展现了强大的能力。然而，传统的 “下一个 token 预测” 范式存在一定局限性，尤其是在处理复杂推理和长期任务时，模型需要经历大量训练才能掌握深层次的概念理解。为了解决这一问题，Meta 等机构的研究者们提出了一种名为 “连续概念混合”（CoCoMix）的新颖预训练框架。这一方法不仅保留了下一个 token 预测的优点，还引入了

AI新闻资讯