近日,网络安全公司 Palo Alto Networks 的 Unit42研究团队发布了一项令人瞩目的研究,揭露了一种名为 “Deceptive Delight”的新型越狱方法。
这个方法能够在仅仅两到三次交互中,就成功诱导大型语言模型(LLM)生成有害内容,其成功率高达65%。这一发现为保护 LLM 的安全性敲响了警钟。
图源备注:图片由AI生成,图片授权服务商Midjourney
研究团队在测试中分析了多达8000个案例,并评估了八种不同的语言模型。在这个越狱技术的第一步,攻击者首先会要求 LLM 生成一个叙述,这个叙述包含两个无害的话题和一个潜在的危险话题。举个例子,攻击者可能会要求模型将家庭聚会、孩子出生与制造莫洛托夫鸡尾酒联系起来。这个步骤的目的是为了让模型在无意中触碰到有害内容的边界。
接下来,攻击者会进行第二步,要求 LLM 对叙述中的每个话题进行更深入的阐述。根据研究,很多时候这个步骤会引导模型生成与危险话题相关的有害内容。如果攻击者再进行第三步,专门要求模型进一步扩展危险话题,成功率将提高到平均65%,而且生成的有害内容在危害性和质量上分别提升了21% 和33%。
研究人员还指出,在测试过程中,他们特意去除了模型内置的内容过滤层,以更好地评估模型的安全防护能力。在没有这些过滤器的情况下,模型生成有害内容的概率仍然相对较低,平均只有5.8%。在所测试的八种模型中,某一模型的成功率甚至达到了惊人的80.6%,而最低则为48%。
为此,Unit42提出了针对这种多轮越狱攻击的防御建议。他们认为,增加内容过滤器作为保护措施,以及设计更严密的系统提示,可以有效引导 LLM 避免生成有害内容。这些系统提示应明确规定模型的角色和安全话题的界限,帮助模型保持在安全的轨道上。
划重点:
🔍 新型越狱方法 “欺骗愉悦” 可以在两到三次交互中诱导 LLM 生成有害内容,成功率高达65%。
📈 研究分析了8000个案例,发现不同模型的成功率差异明显,单一模型成功率最高可达80.6%。
🛡️ 为应对越狱攻击,建议增加内容过滤器和清晰的系统提示,以增强模型的安全性和防护能力。