A empresa de inteligência artificial Anthropic anunciou recentemente o desenvolvimento de um novo método de segurança chamado "classificador de robustez", projetado para proteger modelos de linguagem contra manipulação maliciosa. Essa tecnologia visa especificamente a "evasão universal" — uma forma de entrada que tenta contornar sistematicamente todas as medidas de segurança para evitar que o modelo de IA gere conteúdo prejudicial.

Para verificar a eficácia dessa tecnologia, a Anthropic realizou um teste em larga escala. A empresa recrutou 183 participantes para tentar quebrar seu sistema de defesa ao longo de dois meses. Os participantes foram solicitados a tentar fazer com que o modelo de IA Claude 3.5 respondesse a dez perguntas proibidas, inserindo perguntas específicas. Apesar de um prêmio de US$ 15.000 e cerca de 3.000 horas de tempo de teste, nenhum participante conseguiu contornar completamente as medidas de segurança da Anthropic.

Claude2, Anthropic, inteligência artificial, chatbot Claude

Aprendendo com os desafios

As versões anteriores do "classificador de robustez" da Anthropic apresentavam dois problemas principais: classificar incorretamente muitos pedidos inofensivos como perigosos e exigir muitos recursos computacionais. Após melhorias, a nova versão do classificador reduziu significativamente a taxa de classificação incorreta e otimizou a eficiência computacional. No entanto, testes automatizados mostraram que, embora o sistema aprimorado tenha bloqueado com sucesso mais de 95% das tentativas de evasão, ainda são necessários 23,7% a mais de capacidade computacional para sua execução. Em comparação, o modelo Claude desprotegido permitiu que 86% das tentativas de evasão fossem bem-sucedidas.

Treinamento baseado em dados sintéticos

O cerne do "classificador de robustez" reside no uso de regras predefinidas (chamadas de "constituição") para distinguir entre conteúdo permitido e proibido. O sistema treina o classificador para identificar entradas suspeitas gerando vários exemplos de treinamento sintéticos em diferentes idiomas e estilos. Esse método não apenas melhora a precisão do sistema, mas também aumenta sua capacidade de lidar com ataques diversificados.

Apesar do progresso significativo, os pesquisadores da Anthropic reconhecem que o sistema não é perfeito. Ele pode não ser capaz de lidar com todos os tipos de ataques de evasão universal, e novos métodos de ataque podem surgir no futuro. Portanto, a Anthropic recomenda o uso do "classificador de robustez" em conjunto com outras medidas de segurança para fornecer proteção mais abrangente.

Teste público e perspectivas futuras

Para testar ainda mais a robustez do sistema, a Anthropic planeja lançar uma versão de demonstração pública entre 3 e 10 de fevereiro de 2025, convidando especialistas em segurança para tentar quebrá-lo. Os resultados dos testes serão publicados em atualizações posteriores. Essa iniciativa não apenas demonstra o compromisso da Anthropic com a transparência tecnológica, mas também fornece dados valiosos para a pesquisa na área de segurança da IA.

O "classificador de robustez" da Anthropic representa um avanço significativo na proteção de segurança dos modelos de IA. Com o rápido desenvolvimento da tecnologia de IA, como evitar o mau uso dos modelos tornou-se um foco de atenção do setor. A inovação da Anthropic oferece novas soluções para esse desafio e também aponta o caminho para futuras pesquisas em segurança de IA.