La empresa de inteligencia artificial Anthropic ha anunciado recientemente el desarrollo de un nuevo método de seguridad llamado "clasificador de constitución", diseñado para proteger a los modelos de lenguaje de la manipulación maliciosa. Esta tecnología se centra específicamente en los "ataques de evasión universales", una forma de entrada que intenta eludir sistemáticamente todas las medidas de seguridad para evitar que el modelo de IA genere contenido dañino.
Para verificar la eficacia de esta tecnología, Anthropic llevó a cabo una prueba a gran escala. La empresa reclutó a 183 participantes que, durante dos meses, intentaron superar su sistema de defensa. Se les pidió a los participantes que intentaran hacer que el modelo de inteligencia artificial Claude 3.5 respondiera a diez preguntas prohibidas mediante la introducción de preguntas específicas. A pesar de una recompensa de hasta 15.000 dólares y aproximadamente 3.000 horas de tiempo de prueba, ningún participante logró eludir completamente las medidas de seguridad de Anthropic.
Aprendizaje de los desafíos
Las versiones anteriores del "clasificador de constitución" de Anthropic presentaban dos problemas principales: uno era la clasificación errónea de demasiadas solicitudes inofensivas como peligrosas, y el otro era la necesidad de una gran cantidad de recursos informáticos. Después de las mejoras, el nuevo clasificador redujo significativamente la tasa de falsos positivos y optimizó la eficiencia computacional. Sin embargo, las pruebas automáticas mostraron que, aunque el sistema mejorado bloqueó con éxito más del 95% de los intentos de evasión, aún se necesitaba un 23,7% adicional de capacidad de computación para su funcionamiento. En comparación, el modelo Claude sin protección permitió que el 86% de los intentos de evasión tuvieran éxito.
Entrenamiento basado en datos sintéticos
El núcleo del "clasificador de constitución" radica en el uso de reglas predefinidas (llamadas "constitución") para distinguir entre contenido permitido y prohibido. El sistema entrena al clasificador para identificar entradas sospechosas mediante la generación de ejemplos de entrenamiento sintéticos en varios idiomas y estilos. Este método no solo mejora la precisión del sistema, sino que también aumenta su capacidad para hacer frente a ataques diversificados.
A pesar de los avances significativos, los investigadores de Anthropic reconocen que el sistema no es perfecto. Es posible que no pueda hacer frente a todos los tipos de ataques de evasión universales, y pueden surgir nuevos métodos de ataque en el futuro. Por lo tanto, Anthropic recomienda el uso del "clasificador de constitución" junto con otras medidas de seguridad para proporcionar una protección más completa.
Prueba pública y perspectivas futuras
Para probar aún más la solidez del sistema, Anthropic planea lanzar una versión de demostración pública del 3 al 10 de febrero de 2025, invitando a expertos en seguridad a intentar romperlo. Los resultados de las pruebas se publicarán en actualizaciones posteriores. Esta iniciativa no solo demuestra el compromiso de Anthropic con la transparencia tecnológica, sino que también proporciona datos valiosos para la investigación en el campo de la seguridad de la IA.
El "clasificador de constitución" de Anthropic representa un avance significativo en la protección de la seguridad de los modelos de IA. Con el rápido desarrollo de la tecnología de IA, la forma de evitar eficazmente el mal uso de los modelos se ha convertido en un foco de atención de la industria. La innovación de Anthropic ofrece nuevas soluciones a este desafío y también señala el camino para futuras investigaciones en seguridad de IA.