Ataque de evasión de LLM inducido por hipnosis profunda

Un equipo de investigación de la Universidad Baptista de Hong Kong ha descubierto un ataque de evasión de modelos lingüísticos grandes (LLM) inducido por hipnosis profunda, revelando una vulnerabilidad de seguridad en la que los LLM pueden perder sus defensas contra las instrucciones humanas. El equipo propuso DeepInception, que utiliza instrucciones (prompts) personalizadas con características de personalidad para lograr una evasión adaptativa, superando consistentemente los métodos de evasión anteriores.

La investigación hace un llamado a una mayor atención a la auto-evasión de los LLM, introduciendo el concepto de evasión a través de la personalidad y las características psicológicas. Los experimentos demuestran la urgencia de mejorar los mecanismos de defensa de los grandes modelos, enfatizando la necesidad de una mayor seguridad. Las principales contribuciones del estudio incluyen la introducción del concepto de ataque de evasión basado en la personalidad del LLM, la provisión de una plantilla de instrucciones para DeepInception y la demostración experimental de su superioridad en la evasión.

Este estudio ha generado una nueva preocupación por la seguridad de los LLM. A través de una exploración única desde una perspectiva psicológica, proporciona información valiosa para comprender y prevenir la evasión de los LLM.