AI2 发布大语言模型开源数据集 Dolma 包含 3 万亿个 token
站长之家
30
美国艾伦人工智能研究所最近发布了名为 Dolma 的开源数据集,包含了 3 万亿个 token。这个数据集将为 AI2 正在开发的开放语言模型 OLMo 提供基础,计划于 2024 年初发布。Dolma 的数据来自广泛的来源,包括网络内容、学术出版物、代码和书籍等。这个数据集是目前公开可用的同类数据集中最大的一个。
© 版权所有 AIbase基地 2024, 点击查看来源出处 - https://www.aibase.com/zh/news/772