艾伦人工智能研究所(AI2)发布了名为 Dolma 的开放式文本数据集,旨在促进 AI 语言模型的透明度和创新。Dolma 作为 AI2 开放式语言模型 (OLMo) 计划的核心,将为研究人员和开发者提供免费的数据资源,以支持更广泛的 AI 研究。Dolma 不仅是一个规模庞大的开放数据集,拥有 30 亿标记,而且使用和许可方面也非常简便。AI2 采用了 “中风险成果的 ImpACT 许可证”,并鼓励用户提供联系信息和使用情况。该数据集的开放为研究人员和开发者提供了更多的资源,将推动 AI 领域走向更加透明和合作的未来。