FineWeb
Hochwertiger englischer Webdataset
Normales ProduktProgrammierungVerarbeitung natürlicher Sprache (NLP)Dataset
Der FineWeb-Datensatz umfasst über 15 Billionen bereinigte und deduplizierte englische Webseiten aus CommonCrawl. Er wurde speziell für das Pretraining großer Sprachmodelle entwickelt und zielt darauf ab, die Entwicklung quelloffener Modelle voranzutreiben. Der Datensatz wurde sorgfältig aufbereitet und gefiltert, um eine hohe Qualität zu gewährleisten und ist für verschiedene Aufgaben der Verarbeitung natürlicher Sprache (NLP) geeignet.
FineWeb Neueste Verkehrssituation
Monatliche Gesamtbesuche
29742941
Absprungrate
44.20%
Durchschnittliche Seiten pro Besuch
5.9
Durchschnittliche Besuchsdauer
00:04:44