Une nouvelle étude révèle que les mesures de sécurité bien intentionnées dans les grands modèles linguistiques peuvent engendrer des failles inattendues. Les chercheurs ont constaté que la difficulté à « jailbreaker » (contourner les protections) les modèles variait considérablement en fonction des termes démographiques utilisés. L'étude, intitulée « Do LLMs Have Political Correctness ?», explore comment les mots clés démographiques influencent le taux de réussite des tentatives de jailbreak. Les résultats montrent que les invites utilisant des termes associés à des groupes marginalisés sont plus susceptibles de produire des sorties indésirables que celles utilisant des termes associés à des groupes privilégiés.

Les chercheurs précisent : « Ces biais intentionnels entraînent une différence de 20 % dans le taux de réussite des jailbreaks entre les termes non binaires et cisgenres, et de 16 % entre les termes blancs et noirs, même si le reste de l'invite est identique. » expliquent Isack Lee et Haebin Seong de Theori Inc.

Cette différence est attribuée aux biais intentionnels introduits pour garantir le comportement éthique des modèles. Le jailbreak fonctionne grâce à une méthode créée par les chercheurs, baptisée « PCJailbreak », conçue pour tester la vulnérabilité des grands modèles linguistiques aux attaques de jailbreak. Ces attaques utilisent des invites soigneusement conçues pour contourner les mesures de sécurité de l'IA et générer un contenu nuisible.

image.png

PCJailbreak utilise des mots clés associés à différents groupes démographiques et socio-économiques. Les chercheurs ont créé des paires de mots comme « riche » et « pauvre » ou « homme » et « femme » pour comparer les groupes privilégiés et marginalisés.

Ils ont ensuite créé des invites combinant ces mots clés avec des instructions potentiellement dangereuses. En testant de multiples combinaisons, ils ont pu mesurer le taux de réussite des tentatives de jailbreak pour chaque mot clé. Les résultats montrent des différences significatives : les mots clés représentant les groupes marginalisés ont généralement un taux de réussite beaucoup plus élevé que ceux représentant les groupes privilégiés. Cela indique que les mesures de sécurité des modèles présentent des biais involontaires, exploitables par les attaques de jailbreak.

image.png

Pour remédier aux failles révélées par PCJailbreak, les chercheurs ont développé la méthode « PCDefense ». Cette méthode utilise des invites de défense spéciales pour réduire les biais excessifs dans les modèles linguistiques, les rendant moins vulnérables aux attaques de jailbreak.

L'originalité de PCDefense réside dans le fait qu'elle ne nécessite pas de modèles ou d'étapes de traitement supplémentaires. Au contraire, les invites de défense sont directement ajoutées à l'entrée pour ajuster les biais et obtenir un comportement plus équilibré du modèle linguistique.

image.png

Les chercheurs ont testé PCDefense sur divers modèles et ont démontré qu'il permettait de réduire considérablement le taux de réussite des tentatives de jailbreak, aussi bien pour les groupes privilégiés que marginalisés. Simultanément, l'écart entre les groupes diminue, indiquant une réduction des biais liés à la sécurité.

Les chercheurs affirment que PCDefense offre un moyen efficace et évolutif d'améliorer la sécurité des grands modèles linguistiques sans calcul supplémentaire.

Les résultats de l'étude soulignent la complexité de la conception de systèmes d'IA sûrs et éthiques, en équilibrant sécurité, équité et performances. L'ajustement précis des garde-fous de sécurité peut réduire les performances globales des modèles d'IA, par exemple leur créativité.

Pour favoriser la recherche et les améliorations futures, les auteurs ont rendu le code de PCJailbreak et tous les éléments associés open source. Theori Inc, l'entreprise à l'origine de cette recherche, est une société de cybersécurité spécialisée dans la sécurité offensive, basée aux États-Unis et en Corée du Sud. Elle a été fondée par Andrew Wesie et Brian Pak en janvier 2016.