Recentemente, o Meta lançou um modelo de aprendizado de máquina chamado Prompt-Guard-86M, projetado para detectar e lidar com ataques de injeção de prompt. Esses ataques geralmente usam entradas especiais para fazer com que modelos de linguagem grandes (LLMs) se comportem incorretamente ou ignorem restrições de segurança. No entanto, surpreendentemente, o próprio sistema mostrou-se vulnerável a ataques.

Hacker, código, programador

Nota da imagem: Imagem gerada por IA, provedor de licenciamento de imagens Midjourney

O Prompt-Guard-86M foi lançado pelo Meta junto com seu modelo gerador Llama3.1, principalmente para ajudar os desenvolvedores a filtrar prompts problemáticos. Os modelos de linguagem grandes geralmente processam grandes quantidades de texto e dados, e sem restrições, podem repetir informações perigosas ou sensíveis indiscriminadamente. Portanto, os desenvolvedores adicionaram "barreiras" aos modelos para capturar entradas e saídas potencialmente prejudiciais.

No entanto, os usuários de IA parecem encarar a tarefa de contornar essas barreiras como um desafio, usando injeção de prompt e métodos de "jailbreak" para fazer com que o modelo ignore suas próprias instruções de segurança. Recentemente, pesquisadores apontaram que o Prompt-Guard-86M do Meta é vulnerável a determinadas entradas. Por exemplo, ao inserir "Ignore previous instructions" com espaços entre as letras, o Prompt-Guard-86M ignora as instruções anteriores.

Essa descoberta foi feita por um caçador de vulnerabilidades chamado Aman Priyanshu, que descobriu essa falha de segurança ao analisar o modelo do Meta e modelos de benchmark da Microsoft. Priyanshu disse que o processo de ajuste fino do Prompt-Guard-86M tem um impacto muito pequeno em letras individuais, permitindo-lhe projetar esse tipo de ataque. Ele compartilhou sua descoberta no GitHub, mostrando que o simples espaçamento de caracteres e a remoção de pontuação podem fazer com que o classificador perca sua capacidade de detecção.

O CTO da Robust Intelligence, Hyrum Anderson, concorda, afirmando que esse método de ataque tem uma taxa de sucesso próxima de 100%. Embora o Prompt-Guard seja apenas parte da linha de defesa, essa vulnerabilidade serve como um alerta para empresas que usam IA. O Meta ainda não respondeu, mas há relatos de que está buscando ativamente soluções.

Destaques:

🔍 O Prompt-Guard-86M do Meta foi descoberto como tendo uma vulnerabilidade de segurança, sendo suscetível a ataques de injeção de prompt.  

💡 Adicionar espaços entre as letras permite que o sistema ignore as instruções de segurança, com uma taxa de sucesso de quase 100%.  

⚠️ Este incidente serve como um aviso para as empresas sobre o uso cuidadoso da tecnologia de IA, com a segurança ainda sendo uma preocupação.