Recientemente, Meta lanzó un modelo de aprendizaje automático llamado Prompt-Guard-86M, diseñado para detectar y contrarrestar los ataques de inyección de prompts. Estos ataques suelen utilizar entradas especiales para hacer que los modelos de lenguaje grandes (LLM) se comporten de manera inapropiada o eludan las restricciones de seguridad. Sin embargo, sorprendentemente, este nuevo sistema también ha demostrado ser vulnerable a los ataques.
Nota de la imagen: Imagen generada por IA, proveída por Midjourney.
Prompt-Guard-86M se lanzó junto con el modelo generativo Llama3.1 de Meta, principalmente para ayudar a los desarrolladores a filtrar los prompts que podrían causar problemas. Los modelos de lenguaje grandes suelen procesar grandes cantidades de texto y datos, y sin restricciones, podrían repetir información peligrosa o sensible indiscriminadamente. Por lo tanto, los desarrolladores incorporaron "barreras de seguridad" en el modelo para detectar entradas y salidas potencialmente dañinas.
Sin embargo, los usuarios de IA parecen considerar el bypass de estas barreras como un desafío, utilizando la inyección de prompts y técnicas de "jailbreak" para hacer que el modelo ignore sus propias instrucciones de seguridad. Recientemente, investigadores señalaron que Prompt-Guard-86M de Meta es vulnerable ante ciertas entradas específicas. Por ejemplo, al introducir "Ignore previous instructions" con espacios entre las letras, Prompt-Guard-86M ignora obedientemente las instrucciones anteriores.
Este hallazgo fue realizado por un cazador de vulnerabilidades llamado Aman Priyanshu, quien descubrió esta falla de seguridad al analizar el modelo de Meta y los modelos de referencia de Microsoft. Priyanshu afirma que el proceso de ajuste fino de Prompt-Guard-86M tiene un impacto mínimo en las letras individuales, lo que le permitió diseñar este tipo de ataque. Compartió su descubrimiento en GitHub, indicando que la simple separación de caracteres y la eliminación de signos de puntuación pueden hacer que el clasificador pierda su capacidad de detección.
El CTO de Robust Intelligence, Hyrum Anderson, coincide con esta afirmación, señalando que la tasa de éxito de este tipo de ataque es cercana al 100%. Aunque Prompt-Guard es solo una parte de la defensa, la revelación de esta vulnerabilidad sirve como una advertencia para las empresas que utilizan IA. Meta aún no ha respondido, pero se informa que están buscando activamente soluciones.
Puntos clave:
🔍 Se descubrió una vulnerabilidad de seguridad en Prompt-Guard-86M de Meta, vulnerable a ataques de inyección de prompts.
💡 Agregar espacios entre las letras permite al sistema ignorar las instrucciones de seguridad, con una tasa de éxito cercana al 100%.
⚠️ Este incidente recuerda a las empresas la necesidad de precaución al utilizar la tecnología de IA, ya que los problemas de seguridad siguen siendo una preocupación.