Récemment, des chercheurs de l'Université Stanford et de l'Université de Hong Kong ont découvert que les agents IA actuels (tels que Claude) sont plus vulnérables aux pop-ups que les humains, leurs performances diminuant considérablement même face à des pop-ups simples.

image.png

Selon l'étude, dans un environnement expérimental, le taux de réussite moyen des attaques contre les agents IA face à des pop-ups conçues pour les perturber a atteint 86%, entraînant une baisse de 47% du taux de réussite des tâches. Cette découverte soulève de nouvelles préoccupations concernant la sécurité des agents IA, surtout lorsqu'ils sont dotés d'une plus grande autonomie dans l'exécution de tâches.

Dans cette étude, les scientifiques ont conçu une série de pop-ups antagonistes pour tester la capacité de réaction des agents IA. L'étude montre que, bien que les humains puissent identifier et ignorer ces pop-ups, les agents IA sont souvent tentés et cliquent même sur ces pop-ups malveillantes, les empêchant ainsi d'accomplir leurs tâches. Ce phénomène affecte non seulement les performances des agents IA, mais peut également présenter des risques de sécurité dans les applications réelles.

L'équipe de recherche a utilisé les plateformes de test OSWorld et VisualWebArena, y injectant des pop-ups conçues, et a observé le comportement des agents IA. Ils ont constaté que tous les modèles IA testés étaient facilement vulnérables. Pour évaluer l'efficacité de l'attaque, les chercheurs ont enregistré la fréquence à laquelle les agents cliquaient sur les pop-ups et leur taux de réussite des tâches. Les résultats montrent que, en cas d'attaque, le taux de réussite des tâches de la plupart des agents IA était inférieur à 10%.

L'étude a également exploré l'influence de la conception des pop-ups sur le taux de réussite des attaques. En utilisant des éléments accrocheurs et des instructions spécifiques, les chercheurs ont constaté une augmentation significative du taux de réussite des attaques. Bien qu'ils aient tenté de contrer les attaques en incitant les agents IA à ignorer les pop-ups ou en ajoutant des identifiants publicitaires, les résultats n'ont pas été concluants. Cela montre que les mécanismes de défense actuels restent très fragiles pour les agents IA.

La conclusion de l'étude souligne le besoin de mécanismes de défense plus avancés dans le domaine de l'automatisation afin d'améliorer la résistance des agents IA aux logiciels malveillants et aux attaques d'ingénierie sociale. Les chercheurs recommandent d'améliorer la sécurité des agents IA en utilisant des instructions plus détaillées, en améliorant leur capacité à identifier les contenus malveillants et en introduisant une supervision humaine.

Article :

https://arxiv.org/abs/2411.02391

GitHub :

https://github.com/SALT-NLP/PopupAttack

Points clés :

🌟 Le taux de réussite des attaques contre les agents IA face aux pop-ups atteint 86%, inférieur aux performances humaines.

🛡️ L'étude révèle que les mesures de défense actuelles sont presque inefficaces contre les agents IA, et leur sécurité doit être améliorée.

🔍 L'étude propose des suggestions de défense telles que l'amélioration de la capacité des agents à identifier les contenus malveillants et la supervision humaine.