DCLM-baseline

高性能言語モデルベンチマーク用データセット

一般製品プログラミング自然言語処理言語モデル
DCLM-baselineは、言語モデルのベンチマークテストに使用される事前学習済みデータセットです。4Tトークンと30億のドキュメントを含み、Common Crawlデータセットから慎重にキュレーションされたデータクレンジング、フィルタリング、重複排除プロセスを経て抽出されました。効率的な言語モデルのトレーニングにおけるデータキュレーションの重要性を示すことを目的としています。このデータセットは研究目的のみに使用でき、本番環境やコードや数学のような特定分野のモデルトレーニングには適していません。
ウェブサイトを開く

DCLM-baseline 最新のトラフィック状況

月間総訪問数

29742941

直帰率

44.20%

平均ページ/訪問

5.9

平均訪問時間

00:04:44

DCLM-baseline 訪問数の傾向

DCLM-baseline 訪問地理的分布

DCLM-baseline トラフィックソース

DCLM-baseline 代替品