Nemotron-CC

Convierte Common Crawl en un conjunto de datos de preentrenamiento a largo plazo y de alta calidad

Producto ComúnProgramaciónInteligencia ArtificialConjunto de Datos
Nemotron-CC es un conjunto de datos de 6,3 billones de tokens basado en Common Crawl. A través de la integración de clasificadores, la reescritura de datos sintéticos y una menor dependencia de filtros heurísticos, convierte Common Crawl en inglés en un conjunto de datos de preentrenamiento a largo plazo de 6,3 billones de tokens, que incluye 4,4 billones de tokens originales globales deduplicados y 1,9 billones de tokens sintéticos generados. Este conjunto de datos logra un mejor equilibrio entre precisión y cantidad de datos, lo que resulta de gran importancia para el entrenamiento de modelos de lenguaje a gran escala.
Abrir sitio web

Nemotron-CC Situación del tráfico más reciente

Total de visitas mensuales

21505

Tasa de rebote

47.10%

Páginas promedio por visita

1.6

Duración promedio de la visita

00:01:24

Nemotron-CC Tendencia de visitas

Nemotron-CC Distribución geográfica de las visitas

Nemotron-CC Fuentes de tráfico

Nemotron-CC Alternativas