Nemotron-CC
Wandelt Common Crawl in einen fein abgestimmten Datensatz für langfristiges Pretraining um.
Normales ProduktProgrammierungKünstliche IntelligenzDatensatz
Nemotron-CC ist ein auf Common Crawl basierender Datensatz mit 6,3 Billionen Tokens. Durch die Integration von Klassifikatoren, die Umschreibung synthetischer Daten und die Reduzierung der Abhängigkeit von heuristischen Filtern wird der englische Common Crawl in einen Datensatz mit 6,3 Billionen Tokens für das langfristige Pretraining umgewandelt. Dieser umfasst 4,4 Billionen global deduplizierte, originäre Tokens und 1,9 Billionen synthetisch generierte Tokens. Der Datensatz erzielt eine bessere Balance zwischen Genauigkeit und Datenmenge und ist daher von großer Bedeutung für das Training großer Sprachmodelle.
Nemotron-CC Neueste Verkehrssituation
Monatliche Gesamtbesuche
21505
Absprungrate
47.10%
Durchschnittliche Seiten pro Besuch
1.6
Durchschnittliche Besuchsdauer
00:01:24