FineWeb
Conjunto de datos web en inglés de alta calidad
Producto ComúnProgramaciónProcesamiento del lenguaje naturalConjunto de datos
El conjunto de datos FineWeb contiene más de 15 billones de páginas web en inglés, limpiadas y depuradas, procedentes de CommonCrawl. Este conjunto de datos está diseñado específicamente para el preentrenamiento de modelos de lenguaje a gran escala, con el objetivo de impulsar el desarrollo de modelos de código abierto. Los datos han sido cuidadosamente procesados y filtrados para asegurar una alta calidad, siendo adecuados para diversas tareas de procesamiento del lenguaje natural.
FineWeb Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44