Nemotron-CC
Convertit Common Crawl en un jeu de données d'entraînement pré-entraîné à long terme et hautement raffiné.
Produit OrdinaireProgrammationIntelligence artificielleJeu de données
Nemotron-CC est un jeu de données de 6,3 billions de jetons basé sur Common Crawl. Grâce à l'intégration de classificateurs, à la réécriture de données synthétiques et à une réduction de la dépendance aux filtres heuristiques, il transforme Common Crawl (en anglais) en un jeu de données d'entraînement pré-entraîné à long terme de 6,3 billions de jetons, comprenant 4,4 billions de jetons bruts dédupliqués à l'échelle mondiale et 1,9 billion de jetons synthétiques générés. Ce jeu de données offre un meilleur équilibre entre précision et volume de données, ce qui est crucial pour l'entraînement de grands modèles linguistiques.
Nemotron-CC Dernière situation du trafic
Nombre total de visites mensuelles
21505
Taux de rebond
47.10%
Nombre moyen de pages par visite
1.6
Durée moyenne de la visite
00:01:24