DCLM-Baseline

Hochleistungs-Benchmark-Datensatz für Sprachmodelle

Normales ProduktProgrammierungNatürliche SprachverarbeitungSprachmodelle
DCLM-Baseline ist ein vortrainierter Datensatz zum Benchmarking von Sprachmodellen. Er enthält 4 Billionen Token und 3 Milliarden Dokumente. Er wurde aus dem Common Crawl-Datensatz extrahiert und durch sorgfältig kuratierte Datenbereinigung, Filterung und Deduplizierung gewonnen. Ziel ist es, die Bedeutung der Datenkuratierung beim Training effizienter Sprachmodelle aufzuzeigen. Dieser Datensatz dient ausschließlich Forschungszwecken und ist nicht für Produktionsumgebungen oder das Training domänenspezifischer Modelle wie Code oder Mathematik geeignet.
Website öffnen

DCLM-Baseline Neueste Verkehrssituation

Monatliche Gesamtbesuche

29742941

Absprungrate

44.20%

Durchschnittliche Seiten pro Besuch

5.9

Durchschnittliche Besuchsdauer

00:04:44

DCLM-Baseline Besuchstrend

DCLM-Baseline Geografische Verteilung der Besuche

DCLM-Baseline Traffic-Quellen

DCLM-Baseline Alternativen