DCLM-baseline
高性能言語モデルベンチマーク用データセット
一般製品プログラミング自然言語処理言語モデル
DCLM-baselineは、言語モデルのベンチマークテストに使用される事前学習済みデータセットです。4Tトークンと30億のドキュメントを含み、Common Crawlデータセットから慎重にキュレーションされたデータクレンジング、フィルタリング、重複排除プロセスを経て抽出されました。効率的な言語モデルのトレーニングにおけるデータキュレーションの重要性を示すことを目的としています。このデータセットは研究目的のみに使用でき、本番環境やコードや数学のような特定分野のモデルトレーニングには適していません。
DCLM-baseline 最新のトラフィック状況
月間総訪問数
29742941
直帰率
44.20%
平均ページ/訪問
5.9
平均訪問時間
00:04:44