Pesquisadores do Instituto Federal de Tecnologia de Zurique (ETH Zurich) apontaram em um artigo que modelos de linguagem grandes, como o GPT-4, já possuem a capacidade de inferir automaticamente informações privadas de usuários, como idade, gênero e localização geográfica, a partir de postagens em fóruns públicos.
Experimentos com um conjunto de dados do Reddit mostraram que a precisão de previsão do GPT-4 ultrapassou 60% em vários indicadores. À medida que o tamanho do modelo aumenta, sua capacidade de inferência também se fortalece.
Os autores também demonstraram a viabilidade da extração de informações privadas por meio de experimentos com chatbots. Especialistas alertam que a identificação e remoção de informações pessoais de grandes conjuntos de dados de treinamento é praticamente impossível, e as medidas de proteção de privacidade em vários aspectos não acompanham o ritmo do rápido desenvolvimento dos modelos.