Nemotron-CC

Convertit Common Crawl en un jeu de données d'entraînement pré-entraîné à long terme et hautement raffiné.

Produit OrdinaireProgrammationIntelligence artificielleJeu de données
Nemotron-CC est un jeu de données de 6,3 billions de jetons basé sur Common Crawl. Grâce à l'intégration de classificateurs, à la réécriture de données synthétiques et à une réduction de la dépendance aux filtres heuristiques, il transforme Common Crawl (en anglais) en un jeu de données d'entraînement pré-entraîné à long terme de 6,3 billions de jetons, comprenant 4,4 billions de jetons bruts dédupliqués à l'échelle mondiale et 1,9 billion de jetons synthétiques générés. Ce jeu de données offre un meilleur équilibre entre précision et volume de données, ce qui est crucial pour l'entraînement de grands modèles linguistiques.
Ouvrir le site Web

Nemotron-CC Dernière situation du trafic

Nombre total de visites mensuelles

21505

Taux de rebond

47.10%

Nombre moyen de pages par visite

1.6

Durée moyenne de la visite

00:01:24

Nemotron-CC Tendance des visites

Nemotron-CC Distribution géographique des visites

Nemotron-CC Sources de trafic

Nemotron-CC Alternatives