Recientemente, el investigador de seguridad Johann Rehberger descubrió una vulnerabilidad en ChatGPT que podría permitir a los hackers implantar información falsa e instrucciones maliciosas en la memoria a largo plazo de los usuarios.
Aunque informó del problema a OpenAI, la empresa, desafortunadamente, no le dio la importancia suficiente, cerrando rápidamente la investigación y afirmando que no se trataba de un problema de seguridad.
Ante esta situación, Rehberger decidió no darse por vencido y desarrolló una prueba de concepto de un ataque que explota esta vulnerabilidad para robar permanentemente todos los datos de entrada del usuario. Tras esto, OpenAI publicó este mes algunas medidas correctivas para intentar solucionar el problema.
¿Cómo se produce esta vulnerabilidad? Se aprovecha de la función de memoria de sesión a largo plazo de ChatGPT, una función que comenzó a probarse en febrero de este año y se lanzó oficialmente en septiembre. La memoria a largo plazo puede almacenar información de conversaciones anteriores del usuario y utilizarla como contexto en conversaciones posteriores. Es decir, ChatGPT puede recordar la edad, el sexo, los intereses, etc., del usuario, para que este no tenga que volver a introducirlos cada vez.
Sin embargo, poco después de su lanzamiento, Rehberger descubrió que, mediante una técnica llamada inyección de indicaciones indirectas, los atacantes podían crear y almacenar recuerdos falsos.
Demostró cómo hacer que ChatGPT creyera que un usuario tenía 102 años, vivía en Matrix y creía firmemente que la Tierra es plana. Esta información falsa se puede implantar mediante el almacenamiento inseguro de archivos (como Google Drive o Microsoft OneDrive), la carga de imágenes maliciosas o el acceso a sitios web sospechosos como Bing.
Documento de demostración: https://embracethered.com/blog/posts/2024/chatgpt-hacking-memories/
Rehberger informó en privado de esta vulnerabilidad a OpenAI en mayo, pero la empresa cerró el informe en el mismo mes. Un mes después, presentó una nueva declaración, adjuntando una prueba de concepto que permitía a la aplicación macOS de ChatGPT enviar literalmente todas las entradas y salidas del usuario a un servidor que él controlaba. Solo con que el usuario objetivo hiciera que ChatGPT accediera a un enlace que contuviera una imagen maliciosa, todo el contenido de la conversación se filtraría al sitio web del atacante.
“Es realmente interesante porque el ataque es persistente”, dijo Rehberger durante su demostración. “La inyección de indicaciones escribe los recuerdos en el almacenamiento a largo plazo de ChatGPT, y las nuevas conversaciones siguen robando datos.”
Aunque OpenAI ya ha implementado algunas medidas correctivas para evitar que la memoria se utilice como medio para robar datos, Rehberger advierte a los usuarios que deben tener cuidado con los posibles ataques de inyección de indicaciones a través de contenido no confiable. Recomienda a los usuarios que, al utilizar ChatGPT, observen atentamente el contenido de salida para ver si se han añadido nuevos recuerdos y que comprueben periódicamente los recuerdos almacenados para asegurarse de que no se han implantado de forma maliciosa.
Puntos clave:
🛡️ Johann Rehberger descubrió una vulnerabilidad en ChatGPT que permite a los hackers implantar información falsa en la memoria del usuario.
💻 Esta vulnerabilidad, a través de la función de memoria a largo plazo, puede robar permanentemente los datos de entrada del usuario.
🔍 Los usuarios deben comprobar periódicamente los recuerdos almacenados para evitar la implantación de información falsa.