FineWeb

Hochwertiger englischer Webdataset

Normales ProduktProgrammierungVerarbeitung natürlicher Sprache (NLP)Dataset
Der FineWeb-Datensatz umfasst über 15 Billionen bereinigte und deduplizierte englische Webseiten aus CommonCrawl. Er wurde speziell für das Pretraining großer Sprachmodelle entwickelt und zielt darauf ab, die Entwicklung quelloffener Modelle voranzutreiben. Der Datensatz wurde sorgfältig aufbereitet und gefiltert, um eine hohe Qualität zu gewährleisten und ist für verschiedene Aufgaben der Verarbeitung natürlicher Sprache (NLP) geeignet.
Website öffnen

FineWeb Neueste Verkehrssituation

Monatliche Gesamtbesuche

29742941

Absprungrate

44.20%

Durchschnittliche Seiten pro Besuch

5.9

Durchschnittliche Besuchsdauer

00:04:44

FineWeb Besuchstrend

FineWeb Geografische Verteilung der Besuche

FineWeb Traffic-Quellen

FineWeb Alternativen