Desde 2021, a equipe de segurança de IA da Microsoft testou mais de 100 produtos de IA generativa para identificar vulnerabilidades e problemas éticos. Suas descobertas desafiam algumas suposições comuns sobre a segurança da IA e destacam a importância contínua da experiência humana.

Acontece que os ataques mais eficazes nem sempre são os mais complexos. Um estudo citado no relatório da Microsoft afirma: "Hackers reais não calculam gradientes, mas usam engenharia rápida". O estudo compara a pesquisa de segurança de IA com a prática do mundo real. Em um teste, a equipe contornou com sucesso os recursos de segurança de um gerador de imagens simplesmente ocultando instruções maliciosas no texto da imagem – sem cálculos matemáticos complexos.

O toque humano ainda é importante

Embora a Microsoft tenha desenvolvido o PyRIT, uma ferramenta de código aberto que automatiza os testes de segurança, a equipe enfatiza que o julgamento humano é insubstituível. Isso ficou particularmente claro quando eles testaram como os chatbots lidavam com situações delicadas (como conversar com pessoas com problemas emocionais). Avaliar esses cenários exige tanto conhecimento de psicologia quanto uma compreensão profunda dos potenciais impactos na saúde mental.

Ao investigar o viés na IA, a equipe também confiou na perspicácia humana. Em um exemplo, eles examinaram o viés de gênero em um gerador de imagens criando imagens de diferentes profissões (sem especificar o gênero).

Novos desafios de segurança surgem

A integração da IA em aplicativos cotidianos introduz novas vulnerabilidades. Em um teste, a equipe manipulou com sucesso um modelo de linguagem para criar cenários de fraude convincentes. Quando combinado com tecnologia de texto para fala, isso cria um sistema que pode interagir com as pessoas de forma perigosamente realista.

Os riscos não se limitam a problemas específicos da IA. A equipe encontrou uma vulnerabilidade de segurança tradicional (SSRF) em uma ferramenta de processamento de vídeo de IA, mostrando que esses sistemas enfrentam desafios de segurança novos e antigos.

A necessidade contínua de segurança

Este estudo se concentra particularmente nos riscos de "IA responsável", ou seja, a possibilidade de sistemas de IA gerarem conteúdo prejudicial ou eticamente problemático. Esses problemas são particularmente difíceis de resolver, pois geralmente dependem muito do contexto e da interpretação individual.

A equipe da Microsoft descobriu que a exposição acidental de usuários comuns a conteúdo problemático é mais preocupante do que ataques deliberados, pois indica que as medidas de segurança não estão funcionando como esperado durante o uso normal.

Os resultados da pesquisa mostram claramente que a segurança da IA não é uma solução única. A Microsoft recomenda a busca e correção contínuas de vulnerabilidades, seguidas por mais testes. Eles sugerem que isso requer suporte de regulamentações e incentivos financeiros para tornar os ataques bem-sucedidos mais caros.

A equipe de pesquisa afirma que ainda há vários problemas-chave a serem resolvidos: como identificamos e controlamos capacidades de IA potencialmente perigosas, como persuasão e engano? Como adaptamos os testes de segurança a diferentes idiomas e culturas? Como as empresas podem compartilhar seus métodos e resultados de forma padronizada?