DCLM-7B
7億パラメーターの言語モデル。データ整理技術の有効性を示しています。
プレミアム新製品プログラミング言語モデルTransformer
DCLM-Baseline-7Bは、DataComp for Language Models (DCLM)チームによって開発された、7億パラメーターの言語モデルです。主に英語を使用します。このモデルは、体系的なデータ整理技術によって言語モデルの性能向上を目指しています。モデルの訓練にはPyTorchとOpenLMフレームワークを使用し、最適化アルゴリズムはAdamW、学習率は2e-3、重み減衰は0.05、バッチサイズは2048シーケンス、シーケンス長は2048トークン、総訓練トークン数は2.5Tに達しました。モデル訓練にはH100 GPUを使用しました。
DCLM-7B 最新のトラフィック状況
月間総訪問数
29742941
直帰率
44.20%
平均ページ/訪問
5.9
平均訪問時間
00:04:44