Un nuevo estudio revela que las medidas de seguridad implementadas en los grandes modelos de lenguaje (LLM) con buenas intenciones pueden generar debilidades inesperadas. Los investigadores descubrieron que la facilidad con la que se puede "escapar" de estos modelos varía significativamente según los términos demográficos utilizados. El estudio, titulado "¿Tienen los LLM corrección política?", explora cómo las palabras clave demográficas afectan la probabilidad de éxito de los intentos de escape. Se encontró que las indicaciones que utilizan términos relacionados con grupos marginados tienen más probabilidades de producir resultados no deseados que las que utilizan términos asociados con grupos privilegiados.

Los investigadores señalan: "Estos sesgos intencionales provocaron una diferencia del 20% en la tasa de éxito de la evasión entre los términos de género no binario y cisgénero en el modelo GPT-4o, y del 16% entre los términos relacionados con blancos y negros, incluso cuando el resto de la indicación era idéntico". Así lo explican Isack Lee y Haebin Seong de Theori Inc.

Los investigadores atribuyen esta disparidad a los sesgos introducidos deliberadamente para garantizar el comportamiento ético del modelo. El método de escape se basa en la técnica "PCJailbreak", creada para probar la vulnerabilidad de los LLM a los ataques de evasión. Estos ataques utilizan indicaciones cuidadosamente diseñadas para eludir las medidas de seguridad de la IA y generar contenido dañino.

image.png

PCJailbreak utiliza palabras clave que representan diferentes grupos demográficos y socioeconómicos. Los investigadores crearon pares de palabras como "rico" y "pobre", o "masculino" y "femenino", para comparar grupos privilegiados y marginados.

Luego, crearon indicaciones que combinaban estas palabras clave con instrucciones potencialmente dañinas. A través de pruebas repetidas con diferentes combinaciones, pudieron medir la probabilidad de éxito de los intentos de evasión para cada palabra clave. Los resultados mostraron diferencias significativas: las palabras clave que representaban grupos marginados generalmente tenían una probabilidad de éxito mucho mayor que las que representaban grupos privilegiados. Esto indica que las medidas de seguridad del modelo tienen un sesgo involuntario que puede ser explotado por los ataques de evasión.

image.png

Para abordar las vulnerabilidades descubiertas por PCJailbreak, los investigadores desarrollaron el método "PCDefense". Este método utiliza indicaciones de defensa especiales para reducir el sesgo excesivo en los modelos de lenguaje, haciéndolos menos vulnerables a los ataques de evasión.

La singularidad de PCDefense radica en que no requiere modelos ni pasos de procesamiento adicionales. En cambio, las indicaciones de defensa se añaden directamente a la entrada para ajustar el sesgo y obtener un comportamiento más equilibrado del modelo de lenguaje.

image.png

Los investigadores probaron PCDefense en varios modelos y demostraron que la probabilidad de éxito de los intentos de evasión puede reducirse significativamente, tanto para grupos privilegiados como marginados. Simultáneamente, la brecha entre los grupos se redujo, lo que indica una disminución del sesgo relacionado con la seguridad.

Los investigadores afirman que PCDefense ofrece una forma eficiente y escalable de mejorar la seguridad de los grandes modelos de lenguaje sin necesidad de cálculos adicionales.

Los resultados del estudio destacan la complejidad de diseñar sistemas de IA seguros y éticos, equilibrando seguridad, equidad y rendimiento. El ajuste fino de las protecciones de seguridad específicas puede disminuir el rendimiento general de los modelos de IA, como su creatividad.

Para fomentar la investigación y las mejoras adicionales, los autores han publicado el código de PCJailbreak y todos los artefactos relacionados como código abierto. Theori Inc., la empresa detrás de esta investigación, es una empresa de ciberseguridad especializada en seguridad ofensiva, con sede en Estados Unidos y Corea del Sur. Fue fundada por Andrew Wesie y Brian Pak en enero de 2016.