Nemotron-CC
Convierte Common Crawl en un conjunto de datos de preentrenamiento a largo plazo y de alta calidad
Producto ComúnProgramaciónInteligencia ArtificialConjunto de Datos
Nemotron-CC es un conjunto de datos de 6,3 billones de tokens basado en Common Crawl. A través de la integración de clasificadores, la reescritura de datos sintéticos y una menor dependencia de filtros heurísticos, convierte Common Crawl en inglés en un conjunto de datos de preentrenamiento a largo plazo de 6,3 billones de tokens, que incluye 4,4 billones de tokens originales globales deduplicados y 1,9 billones de tokens sintéticos generados. Este conjunto de datos logra un mejor equilibrio entre precisión y cantidad de datos, lo que resulta de gran importancia para el entrenamiento de modelos de lenguaje a gran escala.
Nemotron-CC Situación del tráfico más reciente
Total de visitas mensuales
21505
Tasa de rebote
47.10%
Páginas promedio por visita
1.6
Duración promedio de la visita
00:01:24