Récemment, un développeur a réussi à manipuler le nouveau système d'IA d'Apple, Apple Intelligence, sous MacOS 15.1 Beta 1, en utilisant une technique appelée « injection de prompt ». Il a facilement contourné les instructions initiales de l'IA et l'a amenée à répondre à des instructions arbitraires. Cet événement a suscité une grande attention de l'industrie.
Le développeur Evan Zhou a démontré l'exploitation de cette faille sur YouTube. Son objectif initial était de manipuler la fonction de « réécriture » d'Apple Intelligence, généralement utilisée pour améliorer la qualité du texte. Cependant, sa première tentative avec la commande « ignorer les instructions précédentes » a échoué. Étonnamment, grâce à des informations partagées par un utilisateur de Reddit, il a découvert le modèle de prompt et les balises spéciales du système Apple Intelligence, qui séparent le rôle du système de celui de l'utilisateur.
En utilisant ces informations, Zhou a réussi à construire un prompt capable de remplacer le prompt système original. Il a prématurément terminé le rôle de l'utilisateur, inséré un nouveau prompt système, instruisant l'IA d'ignorer les instructions précédentes et de répondre au texte suivant. Après plusieurs tentatives, l'attaque a réussi ! Apple Intelligence a non seulement répondu aux instructions de Zhou, mais a également fourni des informations qu'il n'avait pas demandées, prouvant l'efficacité de l'injection de prompt.
Evan Zhou a également publié son code sur GitHub. Il est important de noter que, bien que cette attaque par « injection de prompt » ne soit pas nouvelle dans les systèmes d'IA (elle est connue depuis la sortie de GPT-3 en 2020), elle n'a toujours pas été complètement résolue. Apple mérite cependant des félicitations, car Apple Intelligence est plus complexe à manipuler que d'autres systèmes de chat en termes de prévention de l'injection de prompt. Par exemple, de nombreux systèmes de chat peuvent être facilement trompés par une simple saisie dans la fenêtre de chat ou par du texte caché dans une image. Même des systèmes comme ChatGPT ou Claude peuvent, dans certains cas, être victimes d'une attaque par injection de prompt.
Points clés :
🌟 Le développeur Evan Zhou a réussi à manipuler le système d'IA d'Apple en utilisant l'« injection de prompt », forçant l'IA à ignorer les instructions initiales.
🔍 Zhou a utilisé des informations sur les prompts partagées par un utilisateur de Reddit pour construire une attaque capable de remplacer le prompt système.
🛡️ Bien que le système d'IA d'Apple soit relativement plus complexe, le problème de l'« injection de prompt » n'est pas complètement résolu et reste un sujet de préoccupation pour l'industrie.