En seulement six jours, des participants ont réussi à contourner toutes les mesures de sécurité du modèle d'intelligence artificielle (IA) Claude 3.5 d'Anthropic, une percée qui a suscité de nouvelles discussions dans le domaine de la sécurité de l'IA. Jan Leike, ancien membre de l'équipe d'alignement d'OpenAI et actuellement employé chez Anthropic, a annoncé sur la plateforme X qu'un participant avait réussi à franchir les huit niveaux de sécurité. Cet effort collectif a nécessité environ 3 700 heures de tests et 300 000 messages de la part des participants.
Bien que les participants aient réussi à franchir les barrières, Leike souligne qu'aucune méthode universelle de « jailbreak » n'a été trouvée pour résoudre tous les défis de sécurité en une seule fois. Cela signifie que malgré la percée, il n'existe pas de moyen universel de contourner toutes les protections de sécurité.
Les défis et les améliorations du classificateur de constitution
Avec la puissance croissante de l'IA, la protection contre la manipulation et l'abus, en particulier en ce qui concerne les sorties dangereuses, devient de plus en plus importante. Anthropic a développé une nouvelle méthode de sécurité : le classificateur de constitution, spécialement conçu pour prévenir les comportements de jailbreak universels. Cette méthode utilise des règles prédéfinies pour déterminer si une entrée est susceptible de manipuler le modèle, empêchant ainsi les réponses dangereuses.
Pour tester l'efficacité de ce système, Anthropic a recruté 183 participants pendant deux mois pour tenter de contourner les mesures de sécurité du modèle Claude 3.5. Les participants ont été invités à tenter de contourner les mécanismes de sécurité afin que Claude réponde à dix « questions taboues ». Malgré une récompense de 15 000 $ et près de 3 000 heures de tests, personne n'a réussi à contourner toutes les protections de sécurité.
Les premières versions du classificateur de constitution présentaient quelques problèmes, notamment le marquage erroné de requêtes inoffensives comme dangereuses et la nécessité d'une grande capacité de calcul. Cependant, ces problèmes ont été résolus efficacement grâce aux améliorations ultérieures. Les données de test montrent que 86 % des tentatives de manipulation ont réussi sur le modèle Claude non protégé, tandis que la version protégée a bloqué plus de 95 % des tentatives de manipulation, bien que le système nécessite toujours une capacité de calcul élevée.
Données d'entraînement synthétiques et défis de sécurité futurs
Ce système de sécurité est basé sur des données d'entraînement synthétiques, utilisant des règles prédéfinies pour construire la « constitution » du modèle, qui définit les entrées autorisées et interdites. Le classificateur entraîné sur ces exemples synthétiques peut identifier efficacement les entrées suspectes. Cependant, les chercheurs reconnaissent que ce système n'est pas parfait et ne peut pas faire face à toutes les formes d'attaques de jailbreak universelles. Ils recommandent donc de l'utiliser en combinaison avec d'autres mesures de sécurité.
Pour renforcer la validation du système, Anthropic a publié une version de démonstration publique du 3 au 10 février 2025, invitant les experts en sécurité à relever le défi. Les résultats seront partagés dans les mises à jour ultérieures.
Cette confrontation sur la sécurité de l'IA met en lumière les défis considérables et la complexité de la protection des modèles d'IA. Avec les progrès technologiques constants, la manière de garantir la sécurité tout en améliorant les fonctionnalités des modèles reste un défi majeur pour l'industrie de l'IA.