DCLM-7B
Ein Sprachmodell mit 700 Millionen Parametern, das die Effektivität von Datenaufbereitungstechniken demonstriert.
Premium-NeuproduktProgrammierungSprachmodellTransformer
DCLM-Baseline-7B ist ein Sprachmodell mit 700 Millionen Parametern, das vom DataComp for Language Models (DCLM)-Team entwickelt wurde und hauptsächlich Englisch verwendet. Das Modell zielt darauf ab, die Leistung von Sprachmodellen durch systematische Datenaufbereitungstechniken zu verbessern. Das Modell wurde mit PyTorch und dem OpenLM-Framework trainiert, mit AdamW als Optimizer, einer Lernrate von 2e-3, einem Weight Decay von 0,05, einer Batchgröße von 2048 Sequenzen und einer Sequenzlänge von 2048 Token. Die Gesamtzahl der Trainings-Token betrug 2,5 Billionen. Für das Training wurde eine H100 GPU verwendet.
DCLM-7B Neueste Verkehrssituation
Monatliche Gesamtbesuche
29742941
Absprungrate
44.20%
Durchschnittliche Seiten pro Besuch
5.9
Durchschnittliche Besuchsdauer
00:04:44