Investigadores del Instituto Federal Suizo de Tecnología de Zúrich (ETH Zurich) señalan en un artículo que modelos de lenguaje grandes como GPT-4 ya poseen la capacidad de deducir automáticamente información privada de usuarios, como edad, sexo y ubicación geográfica, a partir de publicaciones en foros públicos.
Experimentos realizados con un conjunto de datos de Reddit muestran que la precisión de predicción de GPT-4 supera el 60% en varios indicadores. A medida que aumenta el tamaño del modelo, también lo hace su capacidad de inferencia. Los autores también demostraron la viabilidad de la extracción de información privada mediante experimentos con chatbots.
Expertos advierten que resulta prácticamente imposible identificar y eliminar la información personal de los enormes conjuntos de datos de entrenamiento. Las medidas de protección de la privacidad en múltiples aspectos no están al ritmo del rápido desarrollo de estos modelos.