自然言語処理と自然言語生成の進歩に伴い、大規模言語モデルは実用的なアプリケーションで広く使用されるようになりました。研究者たちは、新しいデータセットとフレームワークAboutMeを用いて、データフィルタリングがテキストに与える影響を記録しました。ウェブサイトの「About Me」セクションを分析することで、研究チームはウェブサイト作成者の興味、社会的役割、地理的位置などの情報を測定しました。彼らは、事前学習データの選別プロセスの複雑性を強調し、その社会的影響に関する更なる研究を呼びかけています。