FineWeb
Ensemble de données web anglais de haute qualité
Produit OrdinaireProgrammationTraitement du langage naturelEnsemble de données
FineWeb est un ensemble de données contenant plus de 15 000 milliards de pages web anglaises nettoyées et dédoublonnées, provenant de CommonCrawl. Ce jeu de données est spécialement conçu pour le pré-entraînement de grands modèles linguistiques, dans le but de promouvoir le développement de modèles open source. Il a été soigneusement traité et filtré pour garantir une haute qualité et convient à diverses tâches de traitement du langage naturel.
FineWeb Dernière situation du trafic
Nombre total de visites mensuelles
29742941
Taux de rebond
44.20%
Nombre moyen de pages par visite
5.9
Durée moyenne de la visite
00:04:44