Recentemente, a equipe de pesquisa Unit42 da empresa de segurança cibernética Palo Alto Networks publicou um estudo notável que expôs um novo método de jailbreak chamado "Deceptive Delight" (Deleite Deceptivo).

Este método consegue induzir modelos de linguagem grandes (LLMs) a gerar conteúdo prejudicial em apenas duas ou três interações, com uma taxa de sucesso de até 65%. Essa descoberta acende um sinal de alerta para a segurança dos LLMs.

Robô AI Inteligência Artificial 223

Observação da fonte: Imagem gerada por IA, provedor de serviços de licenciamento de imagens Midjourney

Em seus testes, a equipe analisou até 8.000 casos e avaliou oito modelos de linguagem diferentes. No primeiro passo dessa técnica de jailbreak, o atacante primeiro solicita que o LLM gere uma narrativa que inclua dois tópicos inofensivos e um tópico potencialmente perigoso. Por exemplo, o atacante pode pedir ao modelo que relacione uma reunião familiar, o nascimento de uma criança e a fabricação de coquetéis Molotov. O objetivo dessa etapa é fazer com que o modelo toque inadvertidamente nos limites do conteúdo prejudicial.

Em seguida, o atacante realiza a segunda etapa, solicitando ao LLM que elabore cada tópico da narrativa com mais detalhes. De acordo com a pesquisa, muitas vezes essa etapa leva o modelo a gerar conteúdo prejudicial relacionado ao tópico perigoso. Se o atacante prosseguir para a terceira etapa, solicitando especificamente que o modelo amplie o tópico perigoso, a taxa de sucesso aumenta para uma média de 65%, e o conteúdo prejudicial gerado aumenta em 21% em termos de periculosidade e 33% em qualidade.

Os pesquisadores também observaram que, durante os testes, eles removeram intencionalmente as camadas de filtragem de conteúdo embutidas no modelo para avaliar melhor a capacidade de proteção do modelo. Sem esses filtros, a probabilidade do modelo gerar conteúdo prejudicial ainda era relativamente baixa, com uma média de apenas 5,8%. Entre os oito modelos testados, um modelo atingiu uma taxa de sucesso impressionante de 80,6%, enquanto a mais baixa foi de 48%.

Portanto, a Unit42 propôs recomendações de defesa contra esse ataque de jailbreak em várias rodadas. Eles acreditam que adicionar filtros de conteúdo como medida de proteção e projetar prompts de sistema mais rigorosos podem orientar eficazmente o LLM a evitar a geração de conteúdo prejudicial. Esses prompts de sistema devem especificar claramente o papel do modelo e os limites de tópicos seguros, ajudando o modelo a permanecer no caminho seguro.

Destaques:

🔍 O novo método de jailbreak "Deleite Deceptivo" pode induzir LLMs a gerar conteúdo prejudicial em duas ou três interações, com uma taxa de sucesso de até 65%.  

📈 A pesquisa analisou 8.000 casos e descobriu que a taxa de sucesso varia significativamente entre os modelos, com um modelo individual atingindo uma taxa de sucesso de até 80,6%.  

🛡️ Para lidar com ataques de jailbreak, recomenda-se adicionar filtros de conteúdo e prompts de sistema claros para melhorar a segurança e a proteção do modelo.