IBM公布了其完整的6.48 TB LLM训练数据集

IBM 于五月份开源了适用于企业应用场景的 Granite13B LLM 模型。现在，IBM 的 AI 平台产品副总裁阿曼德・鲁伊兹（Armand Ruiz）公开了用于训练 Granite13B 的全面6.48TB 数据集的完整内容。

这个数据集经过严格的预处理后，缩减为2.07TB，减少了68%。鲁伊兹强调，这一步骤对于确保高质量、无偏见、符合伦理和法律的数据集，以满足企业应用场景需求至关重要。

数据集由多个来源精心策划而来，包括:

- arXiv:超过240万篇科学论文预印本。

- Common Crawl:开放的网络抓取数据库。

- DeepMind Mathematics:数学问答对。

- Free Law:来自美国法院的公共领域法律意见。

- GitHub Clean:来自 CodeParrot 的代码数据。

- Hacker News:2007-2018年的计算机科学和企业家新闻。

- OpenWeb Text:OpenAI 的 Web Text 语料库的开源版本。

- Project Gutenberg（PG-19）:专注于早期作品的免费电子书。

- Pubmed Central:生物医学和生命科学论文。

- SEC Filings:美国证券交易委员会（SEC）的10-K/Q 提交文件(1934-2022年)。

- Stack Exchange:Stack Exchange 网络上的用户贡献内容。

- USPTO:1975年至2023年5月间授予的美国专利。

- Webhose:将非结构化网络内容转换为机器可读数据。

- Wikimedia:八个英文维基媒体项目。

预处理流程包括文本提取、去重、语言识别、句子分割、仇恨、滥用和粗话标注、文档质量标注、URL 屏蔽标注、过滤和标记化。

这些步骤涉及基于设定阈值的标注和过滤，确保最终数据集对模型训练具有最高质量。

IBM 发布了 Granite 代码模型的四个版本，参数范围从30亿到340亿。这些模型已在一系列基准测试中进行了测试，并在许多任务中胜过其他可比模型，如 Code Llama 和 Llama3。

划重点:

⭐ IBM 发布了用于训练 Granite13B LLM 模的完整6.48TB 数据集。

⭐ 数据集经过严格的预处理后，缩减为2.07TB，减少了68%。

⭐ IBM 发布了四个 Granite 代码模型的版本，参数范围从30亿到340亿。

AI新闻资讯