Récemment, l'équipe de recherche Unit42 de la société de cybersécurité Palo Alto Networks a publié une étude remarquable révélant une nouvelle méthode de jailbreak baptisée « Deceptive Delight » (Délice Trompeur).

Cette méthode permet d'inciter les grands modèles linguistiques (LLM) à générer du contenu nuisible en seulement deux ou trois interactions, avec un taux de réussite de 65 %. Cette découverte sonne l'alarme quant à la sécurité des LLM.

Robot IA Intelligence Artificielle 223

Source de l'image : Image générée par IA, fournisseur de services d'autorisation d'images Midjourney

Au cours des tests, l'équipe de recherche a analysé jusqu'à 8 000 cas et évalué huit modèles linguistiques différents. Dans la première étape de cette technique de jailbreak, l'attaquant demande d'abord au LLM de générer un récit contenant deux sujets inoffensifs et un sujet potentiellement dangereux. Par exemple, l'attaquant pourrait demander au modèle de relier une réunion de famille, la naissance d'un enfant et la fabrication de cocktails Molotov. Cette étape vise à amener le modèle à toucher involontairement aux limites du contenu nuisible.

Ensuite, l'attaquant procède à une deuxième étape, demandant au LLM d'approfondir chaque sujet du récit. Selon l'étude, cette étape conduit souvent le modèle à générer du contenu nuisible lié au sujet dangereux. Si l'attaquant effectue une troisième étape, demandant spécifiquement au modèle de développer davantage le sujet dangereux, le taux de réussite atteint en moyenne 65 %, et le contenu nuisible généré voit sa nocivité et sa qualité augmenter respectivement de 21 % et 33 %.

Les chercheurs ont également indiqué que, lors des tests, ils ont délibérément supprimé les couches de filtrage de contenu intégrées au modèle afin de mieux évaluer ses capacités de protection. Sans ces filtres, la probabilité que le modèle génère du contenu nuisible reste relativement faible, à seulement 5,8 % en moyenne. Parmi les huit modèles testés, un modèle a même atteint un taux de réussite étonnant de 80,6 %, tandis que le plus bas était de 48 %.

À cette fin, Unit42 a proposé des recommandations de défense contre cette attaque de jailbreak à plusieurs tours. Ils estiment que l'ajout de filtres de contenu comme mesure de protection, ainsi que la conception d'invites système plus rigoureuses, peuvent efficacement guider les LLM pour éviter de générer du contenu nuisible. Ces invites système doivent définir clairement le rôle du modèle et les limites des sujets sensibles, aidant ainsi le modèle à rester sur la voie de la sécurité.

Points clés :

🔍 La nouvelle méthode de jailbreak « Délice Trompeur » peut inciter les LLM à générer du contenu nuisible en deux ou trois interactions, avec un taux de réussite pouvant atteindre 65 %.  

📈 L'étude a analysé 8 000 cas et a révélé des différences significatives de taux de réussite entre les différents modèles, le taux de réussite le plus élevé pour un seul modèle pouvant atteindre 80,6 %.  

🛡️ Pour contrer les attaques de jailbreak, il est recommandé d'ajouter des filtres de contenu et des invites système claires afin d'améliorer la sécurité et la protection des modèles.