Nemotron-CC

将Common Crawl转化为精细的长期预训练数据集

普通产品编程数据集预训练
Nemotron-CC是一个基于Common Crawl的6.3万亿token的数据集。它通过分类器集成、合成数据改写和减少启发式过滤器的依赖,将英文Common Crawl转化为一个6.3万亿token的长期预训练数据集,包含4.4万亿全球去重的原始token和1.9万亿合成生成的token。该数据集在准确性和数据量之间取得了更好的平衡,对于训练大型语言模型具有重要意义。
打开网站

Nemotron-CC 最新流量情况

月总访问量

11952

跳出率

44.21%

平均页面访问数

1.6

平均访问时长

00:01:17

Nemotron-CC 访问量趋势

Nemotron-CC 访问地理位置分布

Nemotron-CC 流量来源

Nemotron-CC 替代品