Recientemente, investigadores de la Universidad de Stanford y la Universidad de Hong Kong descubrieron que los agentes de IA actuales (como Claude) son más susceptibles a las distracciones de ventanas emergentes que los humanos, y su rendimiento disminuye considerablemente incluso ante ventanas emergentes simples.

image.png

Según el estudio, en un entorno experimental, los agentes de IA tuvieron una tasa de éxito de ataque promedio del 86% al enfrentarse a ventanas emergentes diseñadas, lo que provocó una disminución del 47% en la tasa de éxito de las tareas. Este hallazgo ha generado una nueva preocupación sobre la seguridad de los agentes de IA, especialmente cuando se les confiere mayor autonomía para ejecutar tareas.

En esta investigación, los científicos diseñaron una serie de ventanas emergentes adversarias con el objetivo de probar la capacidad de respuesta de los agentes de IA. El estudio muestra que, aunque los humanos pueden identificar e ignorar estas ventanas emergentes, los agentes de IA a menudo se sienten tentados e incluso hacen clic en estas ventanas emergentes maliciosas, lo que les impide completar la tarea asignada. Este fenómeno no solo afecta el rendimiento de los agentes de IA, sino que también puede generar riesgos de seguridad en aplicaciones reales.

El equipo de investigación utilizó las plataformas de prueba OSWorld y VisualWebArena, introduciendo ventanas emergentes diseñadas y observando el comportamiento de los agentes de IA. Descubrieron que todos los modelos de IA participantes fueron fácilmente atacados. Para evaluar la efectividad del ataque, los investigadores registraron la frecuencia con la que los agentes hacían clic en las ventanas emergentes y su tasa de finalización de tareas. Los resultados mostraron que, en condiciones de ataque, la tasa de éxito de la mayoría de los agentes de IA fue inferior al 10%.

El estudio también exploró la influencia del diseño de las ventanas emergentes en la tasa de éxito del ataque. Al utilizar elementos llamativos e instrucciones específicas, los investigadores observaron un aumento significativo en la tasa de éxito del ataque. Aunque intentaron contrarrestar el ataque mediante indicaciones a los agentes de IA para que ignoraran las ventanas emergentes o añadiendo etiquetas de publicidad, los resultados no fueron satisfactorios. Esto indica que los mecanismos de defensa actuales siguen siendo muy vulnerables para los agentes de IA.

Las conclusiones del estudio destacan la necesidad de mecanismos de defensa más avanzados en el ámbito de la automatización para mejorar la resistencia de los agentes de IA contra el malware y los ataques de ingeniería social. Los investigadores recomiendan mejorar la seguridad de los agentes de IA mediante instrucciones más detalladas, una mayor capacidad para identificar contenido malicioso y la introducción de supervisión humana.

Artículo:

https://arxiv.org/abs/2411.02391

GitHub:

https://github.com/SALT-NLP/PopupAttack

Puntos clave:

🌟 Los agentes de IA tienen una tasa de éxito de ataque del 86% al enfrentarse a ventanas emergentes, un rendimiento inferior al de los humanos.

🛡️ El estudio revela que las medidas de defensa actuales son casi ineficaces para los agentes de IA, y su seguridad necesita una mejora urgente.

🔍 El estudio propone mejorar la capacidad de los agentes para identificar contenido malicioso y la supervisión humana como medidas de defensa.