Nemotron-CC

Common Crawlを精緻化した、大規模言語モデルの長期事前学習用データセット

一般製品プログラミング人工知能データセット
Nemotron-CCは、Common Crawlを基にした6.3兆トークンのデータセットです。分類器の統合、合成データによる書き換え、そしてヒューリスティックなフィルタリングへの依存軽減を通じて、6.3兆トークンの大規模言語モデルの長期事前学習用データセットへと変換されています。これは、4.4兆トークンのグローバルに重複除去された生のトークンと、1.9兆トークンの合成生成トークンで構成されます。本データセットは、正確性とデータ量のバランスに優れ、大規模言語モデルの訓練に重要な役割を果たします。
ウェブサイトを開く

Nemotron-CC 最新のトラフィック状況

月間総訪問数

21505

直帰率

47.10%

平均ページ/訪問

1.6

平均訪問時間

00:01:24

Nemotron-CC 訪問数の傾向

Nemotron-CC 訪問地理的分布

Nemotron-CC トラフィックソース

Nemotron-CC 代替品