DCLM-baseline

高性能语言模型基准测试数据集

普通产品编程自然语言处理语言模型
DCLM-baseline是一个用于语言模型基准测试的预训练数据集,包含4T个token和3B个文档。它通过精心策划的数据清洗、过滤和去重步骤,从Common Crawl数据集中提取,旨在展示数据策划在训练高效语言模型中的重要性。该数据集仅供研究使用,不适用于生产环境或特定领域的模型训练,如代码和数学。
打开网站

DCLM-baseline 最新流量情况

月总访问量

20899836

跳出率

46.04%

平均页面访问数

5.2

平均访问时长

00:04:57

DCLM-baseline 访问量趋势

DCLM-baseline 访问地理位置分布

DCLM-baseline 流量来源

DCLM-baseline 替代品