Recentemente, pesquisadores da Universidade de Stanford e da Universidade de Hong Kong descobriram que os atuais agentes de IA (como o Claude) são mais suscetíveis a interferências de pop-ups do que os humanos, com seu desempenho caindo drasticamente mesmo diante de pop-ups simples.

image.png

De acordo com a pesquisa, em um ambiente experimental, os agentes de IA tiveram uma taxa de sucesso de ataque média de 86% ao serem confrontados com pop-ups projetados, resultando em uma redução de 47% na taxa de sucesso da tarefa. Essa descoberta levanta novas preocupações sobre a segurança dos agentes de IA, especialmente quando são dotados de maior autonomia para executar tarefas.

Neste estudo, os cientistas projetaram uma série de pop-ups adversários para testar a capacidade de resposta dos agentes de IA. A pesquisa mostrou que, embora os humanos consigam identificar e ignorar esses pop-ups, os agentes de IA são frequentemente influenciados, chegando mesmo a clicar em pop-ups maliciosos, impedindo-os de concluir suas tarefas. Esse fenômeno não apenas afeta o desempenho dos agentes de IA, mas também pode criar riscos de segurança em aplicações reais.

A equipe de pesquisa utilizou as plataformas de teste OSWorld e VisualWebArena, injetando pop-ups projetados e observando o comportamento dos agentes de IA. Eles descobriram que todos os modelos de IA testados eram facilmente vulneráveis. Para avaliar a eficácia do ataque, os pesquisadores registraram a frequência com que os agentes clicavam nos pop-ups e sua conclusão de tarefas. Os resultados mostraram que, sob ataque, a taxa de sucesso da tarefa da maioria dos agentes de IA era inferior a 10%.

O estudo também explorou a influência do design do pop-up na taxa de sucesso do ataque. Usando elementos chamativos e instruções específicas, os pesquisadores descobriram um aumento significativo na taxa de sucesso do ataque. Embora tenham tentado resistir ao ataque instruindo os agentes de IA a ignorar os pop-ups ou adicionando rótulos de anúncios, os resultados não foram satisfatórios. Isso indica que os mecanismos de defesa atuais são bastante frágeis para os agentes de IA.

A conclusão da pesquisa destaca a necessidade de mecanismos de defesa mais avançados na área de automação para melhorar a resistência dos agentes de IA a softwares maliciosos e ataques de engenharia social. Os pesquisadores sugerem o uso de instruções mais detalhadas, melhoria na capacidade de identificação de conteúdo malicioso e introdução de supervisão humana para aumentar a segurança dos agentes de IA.

Artigo:

https://arxiv.org/abs/2411.02391

GitHub:

https://github.com/SALT-NLP/PopupAttack

Destaques:

🌟 Agentes de IA têm uma taxa de sucesso de ataque de até 86% ao lidar com pop-ups, apresentando desempenho inferior ao dos humanos.

🛡️ A pesquisa descobriu que as medidas de defesa atuais são quase ineficazes para agentes de IA, e a segurança precisa ser aprimorada.

🔍 A pesquisa sugere a melhoria da capacidade dos agentes de identificar conteúdo malicioso e a supervisão humana como medidas de defesa.