Récemment, Meta a lancé un modèle d'apprentissage automatique appelé Prompt-Guard-86M, conçu pour détecter et contrer les attaques par injection de prompts. Ces attaques consistent généralement à utiliser des entrées spécifiques pour amener les grands modèles de langage (LLM) à se comporter de manière inappropriée ou à contourner les restrictions de sécurité. Ironiquement, ce nouveau système s'est lui-même révélé vulnérable à ce type d'attaque.
Source : Image générée par IA, fournie par Midjourney
Prompt-Guard-86M, lancé par Meta avec son modèle génératif Llama3.1, vise principalement à aider les développeurs à filtrer les prompts potentiellement problématiques. Les grands modèles de langage traitent d'énormes quantités de texte et de données, et sans restrictions, ils peuvent reproduire sans discernement des informations dangereuses ou sensibles. Les développeurs intègrent donc des « garde-fous » dans les modèles pour intercepter les entrées et sorties potentiellement nuisibles.
Cependant, les utilisateurs de l'IA semblent considérer le contournement de ces garde-fous comme un défi, utilisant des techniques d'injection de prompts et de « jailbreak » pour faire ignorer au modèle ses propres instructions de sécurité. Des chercheurs ont récemment démontré la vulnérabilité de Prompt-Guard-86M face à certaines entrées spécifiques. Par exemple, en entrant « Ignore previous instructions » avec des espaces entre les lettres, Prompt-Guard-86M ignore les instructions précédentes sans difficulté.
Cette faille a été découverte par un chasseur de bugs nommé Aman Priyanshu, qui a identifié cette vulnérabilité lors de l'analyse des modèles Meta et des modèles de référence de Microsoft. Priyanshu explique que le processus de réglage fin de Prompt-Guard-86M est peu sensible aux modifications de lettres individuelles, ce qui lui a permis de concevoir cette attaque. Il a partagé sa découverte sur GitHub, montrant comment un simple espacement des caractères et la suppression de la ponctuation peuvent rendre le classificateur inefficace.
Hyrum Anderson, CTO de Robust Intelligence, confirme ces résultats, soulignant que le taux de réussite de cette attaque est proche de 100 %. Bien que Prompt-Guard ne soit qu'une partie du système de défense, cette faille met en garde les entreprises utilisant l'IA. Meta n'a pas encore réagi officiellement, mais des sources indiquent qu'une solution est activement recherchée.
Points clés :
🔍 Une faille de sécurité a été découverte dans Prompt-Guard-86M de Meta, le rendant vulnérable aux attaques par injection de prompts.
💡 L'ajout d'espaces entre les lettres permet au système d'ignorer les instructions de sécurité, avec un taux de réussite proche de 100 %.
⚠️ Cet incident rappelle aux entreprises la nécessité de la prudence lors de l'utilisation de l'IA, les questions de sécurité restant primordiales.