IBM 于五月份开源了适用于企业应用场景的 Granite13B LLM 模型。现在,IBM 的 AI 平台产品副总裁阿曼德・鲁伊兹(Armand Ruiz)公开了用于训练 Granite13B 的全面6.48TB 数据集的完整内容。
这个数据集经过严格的预处理后,缩减为2.07TB,减少了68%。鲁伊兹强调,这一步骤对于确保高质量、无偏见、符合伦理和法律的数据集,以满足企业应用场景需求至关重要。
数据集由多个来源精心策划而来,包括:
- arXiv:超过240万篇科学论文预印本。
- Common Crawl:开放的网络抓取数据库。
- DeepMind Mathematics:数学问答对。
- Free Law:来自美国法院的公共领域法律意见。
- GitHub Clean:来自 CodeParrot 的代码数据。
- Hacker News:2007-2018年的计算机科学和企业家新闻。
- OpenWeb Text:OpenAI 的 Web Text 语料库的开源版本。
- Project Gutenberg(PG-19):专注于早期作品的免费电子书。
- Pubmed Central:生物医学和生命科学论文。
- SEC Filings:美国证券交易委员会(SEC)的10-K/Q 提交文件(1934-2022年)。
- Stack Exchange:Stack Exchange 网络上的用户贡献内容。
- USPTO:1975年至2023年5月间授予的美国专利。
- Webhose:将非结构化网络内容转换为机器可读数据。
- Wikimedia:八个英文维基媒体项目。
预处理流程包括文本提取、去重、语言识别、句子分割、仇恨、滥用和粗话标注、文档质量标注、URL 屏蔽标注、过滤和标记化。
这些步骤涉及基于设定阈值的标注和过滤,确保最终数据集对模型训练具有最高质量。
IBM 发布了 Granite 代码模型的四个版本,参数范围从30亿到340亿。这些模型已在一系列基准测试中进行了测试,并在许多任务中胜过其他可比模型,如 Code Llama 和 Llama3。
划重点:
⭐ IBM 发布了用于训练 Granite13B LLM 模的完整6.48TB 数据集。
⭐ 数据集经过严格的预处理后,缩减为2.07TB,减少了68%。
⭐ IBM 发布了四个 Granite 代码模型的版本,参数范围从30亿到340亿。