Mit dem Fortschritt in der Verarbeitung und Generierung natürlicher Sprache finden große Sprachmodelle breite Anwendung in der Praxis. Forscher haben mit einem neuen Datensatz und Framework namens AboutMe die Auswirkungen der Datenfilterung auf Texte dokumentiert. Durch die Analyse der „Über mich“-Abschnitte von Webseiten hat das Forschungsteam Informationen über die Interessen, sozialen Rollen und geographischen Standorte der Website-Autoren gemessen. Sie betonen die Komplexität des Prozesses der Vorfilterung von Trainingsdaten und fordern weitere Forschung zu den gesellschaftlichen Auswirkungen.