DCLM-baseline
Jeu de données de référence pour les modèles linguistiques performants
Produit OrdinaireProgrammationTraitement du langage naturelModèle linguistique
DCLM-baseline est un jeu de données pré-entraîné destiné aux tests de référence des modèles linguistiques. Il contient 4 T de jetons et 3 M de documents. Extrêmement soigné, il a été extrait de Common Crawl après des étapes de nettoyage, de filtrage et de dédoublonnage minutieuses, démontrant ainsi l'importance de la préparation des données pour l'entraînement de modèles linguistiques efficaces. Ce jeu de données est uniquement destiné à la recherche et ne convient pas à un environnement de production ou à l'entraînement de modèles pour des domaines spécifiques, tels que le code ou les mathématiques.
DCLM-baseline Dernière situation du trafic
Nombre total de visites mensuelles
29742941
Taux de rebond
44.20%
Nombre moyen de pages par visite
5.9
Durée moyenne de la visite
00:04:44