FineWeb

Conjunto de datos web en inglés de alta calidad

Producto ComúnProgramaciónProcesamiento del lenguaje naturalConjunto de datos
El conjunto de datos FineWeb contiene más de 15 billones de páginas web en inglés, limpiadas y depuradas, procedentes de CommonCrawl. Este conjunto de datos está diseñado específicamente para el preentrenamiento de modelos de lenguaje a gran escala, con el objetivo de impulsar el desarrollo de modelos de código abierto. Los datos han sido cuidadosamente procesados y filtrados para asegurar una alta calidad, siendo adecuados para diversas tareas de procesamiento del lenguaje natural.
Abrir sitio web

FineWeb Situación del tráfico más reciente

Total de visitas mensuales

29742941

Tasa de rebote

44.20%

Páginas promedio por visita

5.9

Duración promedio de la visita

00:04:44

FineWeb Tendencia de visitas

FineWeb Distribución geográfica de las visitas

FineWeb Fuentes de tráfico

FineWeb Alternativas