Con los avances en el procesamiento del lenguaje natural y la generación del lenguaje natural, los grandes modelos lingüísticos se utilizan ampliamente en aplicaciones prácticas. Los investigadores, a través de un nuevo conjunto de datos y marco, AboutMe, han documentado el impacto del filtrado de datos en el texto. Analizando las secciones "Acerca de mí" de las páginas web, el equipo de investigación midió información como los intereses, los roles sociales y la ubicación geográfica de los autores de los sitios web. Destacan la complejidad del proceso de filtrado de datos de preentrenamiento y abogan por una mayor investigación sobre sus implicaciones sociales.