Nemotron-CC
将Common Crawl转化为精细的长期预训练数据集
普通产品编程数据集预训练
Nemotron-CC是一个基于Common Crawl的6.3万亿token的数据集。它通过分类器集成、合成数据改写和减少启发式过滤器的依赖,将英文Common Crawl转化为一个6.3万亿token的长期预训练数据集,包含4.4万亿全球去重的原始token和1.9万亿合成生成的token。该数据集在准确性和数据量之间取得了更好的平衡,对于训练大型语言模型具有重要意义。
Nemotron-CC 最新流量情况
月总访问量
11952
跳出率
44.21%
平均页面访问数
1.6
平均访问时长
00:01:17