Avec les progrès du traitement et de la génération du langage naturel, les grands modèles linguistiques sont largement utilisés dans les applications réelles. Des chercheurs ont documenté l'impact de la filtration des données sur les textes grâce à un nouvel ensemble de données et un nouveau cadre, AboutMe. En analysant les sections « À propos de moi » des pages web, l'équipe de recherche a mesuré des informations telles que les centres d'intérêt, les rôles sociaux et la localisation géographique des auteurs de sites web. Ils ont souligné la complexité du processus de filtrage des données pré-entraînées et appelé à de plus amples recherches sur son impact social.