Com o avanço do processamento de linguagem natural e da geração de linguagem natural, os grandes modelos de linguagem estão sendo amplamente utilizados em aplicações práticas. Pesquisadores, através de um novo conjunto de dados e estrutura, o AboutMe, registraram o impacto da filtragem de dados em textos. Analisando seções "Sobre Mim" de páginas da web, a equipe de pesquisa quantificou informações como os interesses, papéis sociais e localização geográfica dos autores dos sites. Eles destacaram a complexidade do processo de filtragem de dados de pré-treinamento e apelaram para pesquisas adicionais sobre seus impactos sociais.