Recentemente, um desenvolvedor conseguiu controlar com sucesso o novo sistema de IA da Apple, o Apple Intelligence, no MacOS 15.1 Beta 1. Ele utilizou um método de ataque conhecido como "injeção de prompt", enganando facilmente a IA para que ignorasse suas instruções originais e respondesse a prompts arbitrários. Este evento gerou grande atenção na indústria.

image.png

O desenvolvedor Evan Zhou demonstrou o processo de exploração dessa vulnerabilidade no YouTube. Seu objetivo inicial era manipular a função de "reescrita" do Apple Intelligence, normalmente usada para melhorar a qualidade do texto. No entanto, o comando inicial de Zhou, "ignorar instruções anteriores", não funcionou. Surpreendentemente, através de informações compartilhadas por um usuário do Reddit, ele descobriu o modelo de prompt do sistema Apple Intelligence e marcadores especiais que separam o papel do sistema do papel do usuário.

Usando essas informações, Zhou conseguiu criar um prompt que sobrepôs o prompt original do sistema. Ele encerrou antecipadamente o papel do usuário, inserindo um novo prompt do sistema que instruía a IA a ignorar comandos anteriores e responder ao texto subsequente. Após algumas tentativas, o ataque foi bem-sucedido! O Apple Intelligence não apenas respondeu às instruções de Zhou, mas também forneceu informações que ele não havia solicitado, provando a eficácia da injeção de prompt.

Evan Zhou também publicou seu código no GitHub. Vale mencionar que, embora esse ataque de "injeção de prompt" não seja novidade em sistemas de IA – sendo conhecido desde o lançamento do GPT-3 em 2020 –, ele ainda não foi completamente resolvido. A Apple merece algum crédito, pois o Apple Intelligence é mais complexo em sua proteção contra injeção de prompt em comparação com outros sistemas de bate-papo. Muitos sistemas de bate-papo, por exemplo, podem ser facilmente enganados com a simples entrada direta na janela de bate-papo ou por meio de texto oculto em imagens. Mesmo sistemas como ChatGPT ou Claude ainda podem ser vítimas de ataques de injeção de prompt em algumas circunstâncias.

Destaques:

🌟 O desenvolvedor Evan Zhou utilizou "injeção de prompt" para controlar com sucesso o sistema de IA da Apple, fazendo-o ignorar comandos originais.

🔍 Zhou utilizou informações de prompt compartilhadas por um usuário do Reddit para criar um método de ataque que sobrepõe o prompt do sistema.

🛡️ Apesar de ser relativamente mais complexo, o problema de "injeção de prompt" ainda não foi totalmente resolvido no sistema de IA da Apple, permanecendo um ponto crítico de atenção na indústria.