FineWeb

Ensemble de données web anglais de haute qualité

Produit OrdinaireProgrammationTraitement du langage naturelEnsemble de données
FineWeb est un ensemble de données contenant plus de 15 000 milliards de pages web anglaises nettoyées et dédoublonnées, provenant de CommonCrawl. Ce jeu de données est spécialement conçu pour le pré-entraînement de grands modèles linguistiques, dans le but de promouvoir le développement de modèles open source. Il a été soigneusement traité et filtré pour garantir une haute qualité et convient à diverses tâches de traitement du langage naturel.
Ouvrir le site Web

FineWeb Dernière situation du trafic

Nombre total de visites mensuelles

29742941

Taux de rebond

44.20%

Nombre moyen de pages par visite

5.9

Durée moyenne de la visite

00:04:44

FineWeb Tendance des visites

FineWeb Distribution géographique des visites

FineWeb Sources de trafic

FineWeb Alternatives