DCLM-baseline

Jeu de données de référence pour les modèles linguistiques performants

Produit OrdinaireProgrammationTraitement du langage naturelModèle linguistique
DCLM-baseline est un jeu de données pré-entraîné destiné aux tests de référence des modèles linguistiques. Il contient 4 T de jetons et 3 M de documents. Extrêmement soigné, il a été extrait de Common Crawl après des étapes de nettoyage, de filtrage et de dédoublonnage minutieuses, démontrant ainsi l'importance de la préparation des données pour l'entraînement de modèles linguistiques efficaces. Ce jeu de données est uniquement destiné à la recherche et ne convient pas à un environnement de production ou à l'entraînement de modèles pour des domaines spécifiques, tels que le code ou les mathématiques.
Ouvrir le site Web

DCLM-baseline Dernière situation du trafic

Nombre total de visites mensuelles

29742941

Taux de rebond

44.20%

Nombre moyen de pages par visite

5.9

Durée moyenne de la visite

00:04:44

DCLM-baseline Tendance des visites

DCLM-baseline Distribution géographique des visites

DCLM-baseline Sources de trafic

DCLM-baseline Alternatives