ChinaZ.com, le 12 juin 2024 : Une équipe de recherche conjointe de l'Université de technologie de Beijing et de l'Université technologique de Nanyang a mené des tests de sécurité approfondis sur le modèle GPT-4o. Grâce à des dizaines de milliers de requêtes API, les chercheurs ont évalué la sécurité de GPT-4o sur trois modalités : texte, image et audio. L'étude a révélé que, bien que GPT-4o ait amélioré sa sécurité contre les attaques de type « jailbreak » textuelles, la nouvelle modalité vocale a introduit de nouvelles failles, et la sécurité globale multimodale est inférieure à celle du modèle précédent, GPT-4V.
Principales conclusions :
Sécurité améliorée en mode texte, mais risque de transfert : GPT-4o présente une résistance accrue aux attaques de type « jailbreak » textuelles, mais les attaquants peuvent toujours mener des attaques multimodales.
La modalité audio pose de nouveaux défis en matière de sécurité : La nouvelle modalité audio peut offrir de nouvelles voies d'attaque de type « jailbreak ».
Insuffisance de la sécurité multimodale : La sécurité multimodale de GPT-4o est inférieure à celle de GPT-4V, ce qui indique que le nouveau modèle pourrait présenter des failles de sécurité lors de l'intégration de différentes modalités.
Méthodologie expérimentale :
Utilisation de plus de 4 000 requêtes textuelles initiales, plus de 8 000 jugements de réponse et plus de 16 000 requêtes API.
Évaluation de jeux de données de type « jailbreak » open source unimodaux et multimodaux, notamment AdvBench, RedTeam-2K, SafeBench et MM-SafetyBench.
Test de 7 méthodes de type « jailbreak », notamment les méthodes basées sur des modèles, GCG, AutoDAN, PAP et BAP.
Indicateurs d'évaluation :
Le taux de réussite des attaques (ASR) est le principal indicateur d'évaluation, reflétant la difficulté de contourner le modèle.
Résultats expérimentaux :
En mode texte pur, le niveau de sécurité de GPT-4o sans attaque est inférieur à celui de GPT-4V, mais il présente une sécurité supérieure en cas d'attaque.
La sécurité de la modalité audio est élevée ; la conversion directe de texte en audio ne permet pas de contourner GPT-4o.
Les tests de sécurité multimodaux montrent que GPT-4o est plus vulnérable aux attaques que GPT-4V dans certains scénarios.
Conclusion et recommandations :
L'équipe de recherche souligne que, malgré l'amélioration des capacités multimodales de GPT-4o, ses problèmes de sécurité ne doivent pas être négligés. Elle recommande à la communauté d'améliorer la sensibilisation aux risques de sécurité liés aux grands modèles multimodaux et de privilégier l'élaboration de stratégies d'alignement et de techniques d'atténuation. De plus, en raison du manque de jeux de données multimodaux de type « jailbreak », les chercheurs appellent à la création de jeux de données multimodaux plus complets afin d'évaluer la sécurité des modèles de manière plus précise.
Adresse de l'article : https://arxiv.org/abs/2406.06302
Adresse du projet : https://github.com/NY1024/Jailbreak_GPT4o