Modelos de linguagem grandes, como o ChatGPT, memorizam uma quantidade de dados de treinamento originais durante o processo de treinamento. Atacadores podem extrair grandes quantidades desses dados de treinamento do modelo usando métodos de ataque específicos, ameaçando a privacidade dos proprietários dos dados. Os pesquisadores recomendam que medidas de proteção de dados sejam implementadas e usadas ao desenvolver e usar modelos de linguagem grandes para evitar vazamentos de dados.