Une équipe de recherche de l'Université baptiste de Hong Kong a révélé une faille de sécurité dans les grands modèles de langage (LLM) : une attaque de jailbreak induite par une hypnose profonde, démontrant la vulnérabilité des LLM à la perte de leurs mécanismes d'autodéfense face à des instructions humaines.
L'équipe a développé DeepInception, une méthode d'évasion adaptative utilisant des invites (prompts) personnalisées basées sur des caractéristiques de personnalité. DeepInception surpasse les méthodes de jailbreak précédentes. L'étude souligne l'urgence d'améliorer les mécanismes de défense des LLM contre les tentatives d'évasion.
Les principales contributions de cette recherche incluent :
- L'introduction d'un nouveau concept d'attaque de jailbreak basé sur la personnification des LLM.
- La fourniture d'un modèle d'invite (prompt) pour DeepInception.
- La démonstration expérimentale de la supériorité de DeepInception en matière de jailbreak.
Cette recherche suscite une nouvelle inquiétude quant à la sécurité des LLM. Son approche unique, basée sur la psychologie, offre des pistes précieuses pour comprendre et prévenir les attaques de jailbreak.