DCLM-Baseline
Hochleistungs-Benchmark-Datensatz für Sprachmodelle
Normales ProduktProgrammierungNatürliche SprachverarbeitungSprachmodelle
DCLM-Baseline ist ein vortrainierter Datensatz zum Benchmarking von Sprachmodellen. Er enthält 4 Billionen Token und 3 Milliarden Dokumente. Er wurde aus dem Common Crawl-Datensatz extrahiert und durch sorgfältig kuratierte Datenbereinigung, Filterung und Deduplizierung gewonnen. Ziel ist es, die Bedeutung der Datenkuratierung beim Training effizienter Sprachmodelle aufzuzeigen. Dieser Datensatz dient ausschließlich Forschungszwecken und ist nicht für Produktionsumgebungen oder das Training domänenspezifischer Modelle wie Code oder Mathematik geeignet.
DCLM-Baseline Neueste Verkehrssituation
Monatliche Gesamtbesuche
29742941
Absprungrate
44.20%
Durchschnittliche Seiten pro Besuch
5.9
Durchschnittliche Besuchsdauer
00:04:44