Recientemente, un equipo de investigación de la Universidad de Nueva York publicó un estudio que revela la vulnerabilidad de los modelos lingüísticos a gran escala (LLM) durante el entrenamiento de datos. Descubrieron que incluso una cantidad mínima de información falsa, tan solo el 0.001% de los datos de entrenamiento, puede provocar errores significativos en todo el modelo. Este hallazgo es particularmente preocupante en el ámbito médico, ya que la información errónea puede afectar directamente la seguridad del paciente.
Nota de la fuente: La imagen fue generada por IA, con licencia de Midjourney.
En un artículo publicado en la revista Nature Medicine, los investigadores señalan que, aunque los LLM muestran un rendimiento excelente, si sus datos de entrenamiento están contaminados con información falsa, estos modelos pueden obtener resultados similares a los modelos no afectados en algunos puntos de referencia de código abierto. Esto significa que, en las pruebas convencionales, es posible que no detectemos los riesgos potenciales de estos modelos.
Para verificar esto, el equipo de investigación realizó un experimento con un conjunto de datos de entrenamiento llamado "The Pile", en el que introdujeron intencionalmente 150.000 artículos médicos falsos generados por IA. En solo 24 horas, generaron este contenido. El estudio demostró que reemplazar el 0.001% de los datos del conjunto, incluso un pequeño millón de tokens de entrenamiento, puede aumentar el contenido dañino en un 4.8%. El costo de este proceso fue extremadamente bajo, tan solo 5 dólares.
Este tipo de ataque de envenenamiento de datos no requiere acceso directo a los pesos del modelo; los atacantes solo necesitan publicar información dañina en línea para debilitar la efectividad del LLM. El equipo de investigación destaca que este hallazgo pone de manifiesto los importantes riesgos asociados con el uso de herramientas de IA en el ámbito médico. Al mismo tiempo, mencionan que ya existen casos en los que ciertas plataformas de atención médica con IA, como MyChart, generan información errónea al responder automáticamente a las preguntas de los pacientes, causando problemas a estos últimos.
Por lo tanto, los investigadores instan a los desarrolladores de IA y a los proveedores de atención médica a reconocer esta vulnerabilidad al desarrollar LLM médicos. Recomiendan que, hasta que se garantice la seguridad, no se deben utilizar los LLM para tareas cruciales como el diagnóstico o el tratamiento.
Puntos clave:
🌐 El estudio demuestra que solo se necesita un 0.001% de información falsa para que los modelos lingüísticos a gran escala (LLM) fallen.
🩺 En el ámbito médico, la difusión de información falsa puede afectar gravemente la seguridad del paciente.
💡 Los investigadores recomiendan no utilizar LLM para tareas médicas importantes como el diagnóstico o el tratamiento hasta que se garantice la seguridad.