美国艾伦人工智能研究所最近发布了名为 Dolma 的开源数据集,包含了 3 万亿个 token。这个数据集将为 AI2 正在开发的开放语言模型 OLMo 提供基础,计划于 2024 年初发布。Dolma 的数据来自广泛的来源,包括网络内容、学术出版物、代码和书籍等。这个数据集是目前公开可用的同类数据集中最大的一个。