Desde 2021, el equipo de seguridad de IA de Microsoft ha probado más de 100 productos de IA generativa para buscar vulnerabilidades y problemas éticos. Sus hallazgos desafían algunas suposiciones comunes sobre la seguridad de la IA y destacan la continua importancia de la experiencia humana.

Resulta que los ataques más efectivos no siempre son los más complejos. Un estudio citado en el informe de Microsoft señala: "Los verdaderos hackers no calculan gradientes, sino que utilizan ingeniería rápida". Este estudio compara la investigación de seguridad de la IA con las prácticas del mundo real. En una prueba, el equipo logró eludir las funciones de seguridad de un generador de imágenes simplemente ocultando instrucciones dañinas en el texto de la imagen, sin necesidad de complejos cálculos matemáticos.

El toque humano sigue siendo importante

Aunque Microsoft ha desarrollado PyRIT, una herramienta de código abierto que realiza pruebas de seguridad de forma automática, el equipo destaca que el juicio humano es insustituible. Esto se hizo especialmente evidente cuando probaron cómo los chatbots manejaban situaciones delicadas (por ejemplo, conversaciones con personas con problemas emocionales). La evaluación de estos escenarios requiere tanto conocimientos de psicología como una comprensión profunda de las posibles repercusiones en la salud mental.

Al investigar los sesgos de la IA, el equipo también confió en la perspicacia humana. En un ejemplo, examinaron los sesgos de género en un generador de imágenes creando imágenes de diferentes profesiones (sin especificar el género).

Surgen nuevos desafíos de seguridad

La integración de la IA en las aplicaciones cotidianas ha generado nuevas vulnerabilidades. En una prueba, el equipo logró manipular un modelo de lenguaje para crear escenarios de fraude convincentes. Cuando se combina con tecnología de texto a voz, esto crea un sistema que puede interactuar con las personas de una manera peligrosamente realista.

Los riesgos no se limitan a problemas específicos de la IA. El equipo descubrió una vulnerabilidad de seguridad tradicional (SSRF) en una herramienta de procesamiento de video con IA, lo que demuestra que estos sistemas enfrentan desafíos de seguridad nuevos y antiguos.

Necesidad continua de seguridad

Este estudio se centra especialmente en los riesgos de la "IA responsable", es decir, la posibilidad de que los sistemas de IA generen contenido dañino o con problemas éticos. Estos problemas son especialmente difíciles de resolver, ya que suelen depender en gran medida del contexto y la interpretación personal.

El equipo de Microsoft descubrió que el contacto involuntario de los usuarios comunes con contenido problemático es más preocupante que los ataques deliberados, ya que indica que las medidas de seguridad no funcionan como se espera durante el uso normal.

Los resultados de la investigación muestran claramente que la seguridad de la IA no es una solución única. Microsoft recomienda la búsqueda y corrección continuas de vulnerabilidades, seguidas de más pruebas. Sugieren que esto debe estar respaldado por regulaciones e incentivos financieros que hagan que los ataques exitosos sean más costosos.

El equipo de investigación afirma que aún quedan varios problemas clave por resolver: ¿Cómo identificamos y controlamos las capacidades de IA potencialmente peligrosas, como la persuasión y el engaño? ¿Cómo adaptamos las pruebas de seguridad a diferentes idiomas y culturas? ¿Cómo pueden las empresas compartir sus métodos y resultados de forma estandarizada?