Recientemente, un desarrollador logró manipular con éxito el nuevo sistema de IA de Apple, Apple Intelligence, en MacOS 15.1 Beta 1. Utilizando una técnica conocida como "inyección de prompt", el desarrollador logró fácilmente eludir las instrucciones originales de la IA y obtener respuestas a indicaciones arbitrarias. Este evento ha generado una gran atención en la industria.

image.png

El desarrollador, Evan Zhou, demostró el proceso de explotación de esta vulnerabilidad en YouTube. Su objetivo inicial era manipular la función de "reescritura" de Apple Intelligence, que normalmente se utiliza para mejorar la calidad del texto. Sin embargo, su primer intento con el comando "ignorar las instrucciones anteriores" no tuvo éxito. Sorprendentemente, a través de información compartida por un usuario de Reddit, descubrió la plantilla y las etiquetas especiales del prompt del sistema de Apple Intelligence, que separan el rol del sistema del rol del usuario.

Utilizando esta información, Zhou construyó un prompt que podía sobreescribir el prompt del sistema original. Finalizó prematuramente el rol del usuario, insertó un nuevo prompt del sistema, instruyendo a la IA a ignorar las instrucciones anteriores y responder al texto posterior. Después de varios intentos, ¡el ataque tuvo éxito! Apple Intelligence no solo respondió a las instrucciones de Zhou, sino que también proporcionó información que no había solicitado, demostrando la efectividad de la inyección de prompt.

Evan Zhou también publicó su código en GitHub. Cabe destacar que, aunque este tipo de ataque de "inyección de prompt" no es nuevo en los sistemas de IA (se conoce desde el lanzamiento de GPT-3 en 2020), aún no se ha resuelto completamente. Apple, en cierto modo, merece cierto reconocimiento, ya que Apple Intelligence es más complejo en su prevención de inyección de prompt en comparación con otros sistemas de chat. Por ejemplo, muchos sistemas de chat pueden ser engañados fácilmente simplemente ingresando texto directamente en la ventana de chat o a través de texto oculto en imágenes. Incluso sistemas como ChatGPT o Claude pueden ser vulnerables a ataques de inyección de prompt en ciertas circunstancias.

Puntos clave:

🌟 El desarrollador Evan Zhou utilizó la "inyección de prompt" para controlar con éxito el sistema de IA de Apple, haciendo que ignorara las instrucciones originales.

🔍 Zhou, con la ayuda de información sobre prompts compartida por un usuario de Reddit, construyó un método de ataque capaz de sobreescribir el prompt del sistema.

🛡️ A pesar de que el sistema de IA de Apple es relativamente más complejo, el problema de la "inyección de prompt" aún no se ha resuelto completamente y sigue siendo un punto álgido en la industria.