随着自然语言处理和自然语言生成的进步,大型语言模型在实际应用中得到了广泛使用。研究人员通过新的数据集和框架 AboutMe,记录了数据过滤对文本的影响。通过分析网页的 “关于我” 部分,研究团队测量了网站作者的兴趣、社会角色和地理位置等信息。他们强调了预训练数据筛选过程的复杂性,并呼吁进一步研究其社会影响。