Nemotron-CC
Common Crawlを精緻化した、大規模言語モデルの長期事前学習用データセット
一般製品プログラミング人工知能データセット
Nemotron-CCは、Common Crawlを基にした6.3兆トークンのデータセットです。分類器の統合、合成データによる書き換え、そしてヒューリスティックなフィルタリングへの依存軽減を通じて、6.3兆トークンの大規模言語モデルの長期事前学習用データセットへと変換されています。これは、4.4兆トークンのグローバルに重複除去された生のトークンと、1.9兆トークンの合成生成トークンで構成されます。本データセットは、正確性とデータ量のバランスに優れ、大規模言語モデルの訓練に重要な役割を果たします。
Nemotron-CC 最新のトラフィック状況
月間総訪問数
21505
直帰率
47.10%
平均ページ/訪問
1.6
平均訪問時間
00:01:24