站长之家(ChinaZ.com)6月12日 消息:北航和南洋理工的联合研究团队对GPT-4o模型进行了深入的安全性测试。通过上万次的API查询,研究人员对GPT-4o的文本、图像、音频三种模态进行了安全性评估。研究发现,尽管GPT-4o在文本越狱攻击的安全性上有所提升,但新引入的语音模态增加了新的攻击面,且整体多模态安全性不如前一代模型GPT-4V。

主要发现:

  • 文本模态安全性提升,但存在迁移风险:GPT-4o对文本越狱攻击的抵抗力有所增强,但攻击者仍可通过多模态形式进行攻击。

  • 音频模态带来新的安全挑战:新引入的音频模态可能为越狱攻击提供了新的途径。

  • 多模态安全性不足:GPT-4o在多模态层面的安全性表现不如GPT-4V,表明新模型在整合不同模态时可能存在安全漏洞。

实验方法:

使用了4000+初始文本查询、8000+响应判断和16000+次API查询。

评估了基于单模态和多模态的开源越狱数据集,包括AdvBench、RedTeam-2K、SafeBench和MM-SafetyBench。

测试了7种越狱方法,包括基于模板的方法、GCG、AutoDAN、PAP和BAP等。

image.png

评估指标:

攻击成功率(ASR)作为主要评估指标,反映了模型被越狱的难易程度。

实验结果:

在纯文本模态下,GPT-4o在没有攻击的情况下安全水平低于GPT-4V,但在攻击条件下表现出更高的安全性。

音频模态的安全性较高,直接将文本转换为音频难以越狱GPT-4o。

多模态安全性测试显示,GPT-4o在某些场景下比GPT-4V更易受到攻击。

结论与建议:

研究团队强调,尽管GPT-4o在多模态能力上有所提升,但其安全性问题不容忽视。他们建议社区提高对多模态大模型安全风险的认识,并优先考虑制定对齐策略和缓解技术。此外,由于多模态越狱数据集的缺乏,研究人员呼吁建立更全面的多模态数据集,以更准确地评估模型的安全性。

论文地址:https://arxiv.org/abs/2406.06302

项目地址:https://github.com/NY1024/Jailbreak_GPT4o