Em apenas seis dias, participantes conseguiram contornar todas as proteções de segurança do modelo de Inteligência Artificial (IA) Claude 3.5 da Anthropic, levantando novas discussões sobre a segurança da IA. Jan Leike, ex-membro da equipe de alinhamento da OpenAI e atualmente na Anthropic, anunciou na plataforma X que um participante conseguiu quebrar todos os oito níveis de segurança. Esse esforço coletivo envolveu cerca de 3.700 horas de testes e 300.000 mensagens dos participantes.
Apesar do sucesso dos desafiadores, Leike enfatizou que ninguém conseguiu desenvolver um método universal de "jailbreak" para resolver todos os desafios de segurança de uma só vez. Isso significa que, apesar das falhas, não existe uma maneira única de contornar todas as proteções de segurança.
Desafios e melhorias do classificador de constituição
Com o aumento da potência da IA, proteger esses sistemas contra manipulação e uso indevido, especialmente quando se trata de saídas prejudiciais, tornou-se uma questão cada vez mais importante. Para isso, a Anthropic desenvolveu um novo método de segurança – o classificador de constituição – especificamente para prevenir comportamentos universais de jailbreak. Esse método usa regras predefinidas para determinar se uma entrada pode manipular o modelo, prevenindo assim respostas perigosas.
Para testar a eficácia desse sistema, a Anthropic recrutou 183 participantes durante dois meses para tentar contornar as proteções de segurança do modelo Claude 3.5. Os participantes foram solicitados a tentar contornar os mecanismos de segurança para fazer com que o Claude respondesse a dez "perguntas proibidas". Apesar de um prêmio de US$ 15.000 e quase 3.000 horas de testes, ninguém conseguiu contornar todas as proteções de segurança.
Versões anteriores do classificador de constituição apresentavam alguns problemas, incluindo o rótulo incorreto de solicitações inofensivas como perigosas e a necessidade de grande capacidade de computação. No entanto, com melhorias posteriores, esses problemas foram resolvidos de forma eficaz. Os dados de teste mostram que 86% das tentativas de manipulação foram bem-sucedidas no modelo Claude sem proteção, enquanto a versão protegida bloqueou mais de 95% das tentativas de manipulação, embora o sistema ainda requeira alta capacidade de computação.
Dados de treinamento sintéticos e desafios de segurança futuros
O sistema de segurança é baseado em dados de treinamento sintéticos, usando regras predefinidas para construir a "constituição" do modelo, que determina quais entradas são permitidas e quais são proibidas. O classificador treinado com esses exemplos sintéticos pode identificar entradas suspeitas de forma eficaz. No entanto, os pesquisadores reconhecem que o sistema não é perfeito e não pode lidar com todas as formas de ataques universais de jailbreak, portanto, recomendam o uso em conjunto com outras medidas de segurança.
Para fortalecer ainda mais a validação do sistema, a Anthropic lançou uma versão de demonstração pública entre 3 e 10 de fevereiro de 2025, convidando especialistas em segurança para participar do desafio. Os resultados serão compartilhados em atualizações posteriores.
Essa batalha pela segurança da IA demonstra os enormes desafios e a complexidade da proteção de modelos de IA. Com o avanço contínuo da tecnologia, como garantir a segurança e, ao mesmo tempo, melhorar a funcionalidade dos modelos continua sendo uma questão importante a ser resolvida pela indústria de IA.