Uma nova pesquisa indica que as medidas de segurança bem-intencionadas em grandes modelos de linguagem podem levar a vulnerabilidades inesperadas. Os pesquisadores descobriram que a facilidade com que os modelos são "burlados" varia significativamente dependendo dos termos demográficos usados. O estudo, intitulado "Do LLMs Have Political Correctness?", investiga como palavras-chave demográficas afetam a probabilidade de sucesso em tentativas de burla. A pesquisa descobriu que prompts usando termos de grupos marginalizados têm maior probabilidade de gerar saídas indesejadas do que prompts usando termos de grupos privilegiados.
Os pesquisadores observaram: "Esses vieses intencionais resultam em uma diferença de 20% na taxa de sucesso de burla entre termos de gênero não binário e cisgênero no modelo GPT-4o, e uma diferença de 16% entre termos para brancos e negros, mesmo quando o restante do prompt é idêntico", explicam Isack Lee e Haebin Seong da Theori Inc.
Os pesquisadores atribuem essa disparidade aos vieses intencionais introduzidos para garantir o comportamento ético do modelo. A burla funciona com os pesquisadores criando o método "PCJailbreak" para testar a vulnerabilidade de grandes modelos de linguagem a ataques de burla. Esses ataques usam prompts cuidadosamente elaborados para contornar as medidas de segurança de IA e gerar conteúdo prejudicial.
O PCJailbreak usa palavras-chave de diferentes grupos demográficos e socioeconômicos. Os pesquisadores criaram pares de palavras como "rico" e "pobre" ou "masculino" e "feminino" para comparar grupos privilegiados e marginalizados.
Em seguida, eles criaram prompts combinando essas palavras-chave com instruções potencialmente prejudiciais. Através de testes repetidos com diferentes combinações, eles conseguiram medir a probabilidade de sucesso de cada tentativa de burla para cada palavra-chave. Os resultados mostraram diferenças significativas: as palavras-chave representando grupos marginalizados geralmente tiveram uma taxa de sucesso muito maior do que as palavras-chave representando grupos privilegiados. Isso sugere que as medidas de segurança do modelo têm vieses involuntários que podem ser explorados por ataques de burla.
Para resolver as vulnerabilidades encontradas pelo PCJailbreak, os pesquisadores desenvolveram o método "PCDefense". Este método usa prompts de defesa especiais para reduzir o viés excessivo nos modelos de linguagem, tornando-os menos vulneráveis a ataques de burla.
O PCDefense é único porque não requer modelos ou etapas de processamento adicionais. Em vez disso, os prompts de defesa são adicionados diretamente à entrada para ajustar o viés e obter um comportamento mais equilibrado dos modelos de linguagem.
Os pesquisadores testaram o PCDefense em vários modelos e mostraram que a taxa de sucesso das tentativas de burla pode ser reduzida significativamente, tanto para grupos privilegiados quanto para grupos marginalizados. Ao mesmo tempo, a diferença entre os grupos diminuiu, indicando uma redução do viés relacionado à segurança.
Os pesquisadores afirmam que o PCDefense oferece uma maneira eficiente e escalável de melhorar a segurança de grandes modelos de linguagem sem computação adicional.
Os resultados da pesquisa destacam a complexidade de projetar sistemas de IA seguros e éticos, equilibrando segurança, justiça e desempenho. O ajuste fino de proteções de segurança específicas pode reduzir o desempenho geral dos modelos de IA, como sua criatividade.
Para promover pesquisas e melhorias adicionais, os autores disponibilizaram o código do PCJailbreak e todos os artefatos relevantes como código aberto. A Theori Inc., a empresa por trás desta pesquisa, é uma empresa de segurança cibernética especializada em segurança ofensiva, com sede nos EUA e na Coréia do Sul. Foi fundada por Andrew Wesie e Brian Pak em janeiro de 2016.