Pesquisadores descobrem que o GPT-4o é mais fácil de ser 'quebrado'; segurança geral inferior ao GPT-4V

ChinaZ.com (站长之家) - 12 de junho de 2024: Uma equipe de pesquisa conjunta da Universidade de Aeronáutica e Astronáutica de Beijang (Beihang) e da Universidade Tecnológica de Nanyang (NTU) realizou testes de segurança aprofundados no modelo GPT-4o. Através de milhares de consultas de API, os pesquisadores avaliaram a segurança do GPT-4o em três modalidades: texto, imagem e áudio. A pesquisa descobriu que, embora o GPT-4o tenha apresentado melhorias na segurança contra ataques de "jailbreak" de texto, a nova modalidade de áudio adicionou novas vulnerabilidades, e a segurança multimodal geral é inferior à do modelo GPT-4V anterior.

Principais descobertas:

Segurança aprimorada na modalidade de texto, mas com risco de transferência: O GPT-4o apresenta maior resistência a ataques de "jailbreak" de texto, mas os atacantes ainda podem realizar ataques por meio de formas multimodais.
A modalidade de áudio apresenta novos desafios de segurança: A nova modalidade de áudio introduzida pode fornecer novas maneiras de realizar ataques de "jailbreak".
Segurança multimodal insuficiente: O GPT-4o apresenta desempenho de segurança inferior ao GPT-4V no nível multimodal, indicando que o novo modelo pode apresentar vulnerabilidades de segurança na integração de diferentes modalidades.

Metodologia experimental:

Foram usadas mais de 4000 consultas de texto iniciais, mais de 8000 julgamentos de resposta e mais de 16000 consultas de API.

Foram avaliados conjuntos de dados de "jailbreak" de código aberto baseados em modalidades únicas e multimodais, incluindo AdvBench, RedTeam-2K, SafeBench e MM-SafetyBench.

Foram testados 7 métodos de "jailbreak", incluindo métodos baseados em modelos, GCG, AutoDAN, PAP e BAP.

Métricas de avaliação:

A taxa de sucesso do ataque (ASR) foi usada como a principal métrica de avaliação, refletindo a facilidade com que o modelo pode ser comprometido.

Resultados experimentais:

Na modalidade de texto puro, o GPT-4o apresentou um nível de segurança inferior ao GPT-4V sem ataques, mas apresentou maior segurança em condições de ataque.

A segurança da modalidade de áudio foi alta; a conversão direta de texto para áudio dificilmente permitiu o "jailbreak" do GPT-4o.

Os testes de segurança multimodais mostraram que o GPT-4o é mais suscetível a ataques em alguns cenários em comparação com o GPT-4V.

Conclusão e sugestões:

A equipe de pesquisa destaca que, embora o GPT-4o tenha melhorado suas capacidades multimodais, seus problemas de segurança não devem ser ignorados. Eles recomendam que a comunidade aumente a conscientização sobre os riscos de segurança dos grandes modelos multimodais e priorize o desenvolvimento de estratégias de alinhamento e tecnologias de mitigação. Além disso, devido à falta de conjuntos de dados de "jailbreak" multimodais, os pesquisadores pedem a criação de conjuntos de dados multimodais mais abrangentes para avaliar a segurança dos modelos com maior precisão.

Endereço do artigo: https://arxiv.org/abs/2406.06302

Endereço do projeto: https://github.com/NY1024/Jailbreak_GPT4o

Notícias e Informações de IA

Pesquisadores descobrem que o GPT-4o é mais fácil de ser 'quebrado'; segurança geral inferior ao GPT-4V

AIbase