DCLM-7B
Modèle linguistique de 700 millions de paramètres, démontrant l'efficacité des techniques d'organisation des données.
Nouveau Produit PremiumProgrammationModèle linguistiqueTransformer
DCLM-Baseline-7B est un modèle linguistique de 700 millions de paramètres, développé par l'équipe DataComp for Language Models (DCLM), principalement en anglais. Ce modèle vise à améliorer les performances des modèles linguistiques grâce à des techniques d'organisation de données systématiques. L'entraînement du modèle a utilisé PyTorch et le framework OpenLM, avec l'optimiseur AdamW, un taux d'apprentissage de 2e-3, une régularisation de poids de 0.05, une taille de lot de 2048 séquences, une longueur de séquence de 2048 jetons, et un total de 2,5 T de jetons d'entraînement. L'entraînement du modèle a été effectué sur des GPU H100.
DCLM-7B Dernière situation du trafic
Nombre total de visites mensuelles
29742941
Taux de rebond
44.20%
Nombre moyen de pages par visite
5.9
Durée moyenne de la visite
00:04:44