DCLM-baseline

Conjunto de datos de referencia para modelos lingüísticos de alto rendimiento

Producto ComúnProgramaciónProcesamiento del lenguaje naturalModelos lingüísticos
DCLM-baseline es un conjunto de datos preentrenado para la evaluación comparativa de modelos lingüísticos, que contiene 4T tokens y 3B documentos. Extraído del conjunto de datos Common Crawl mediante un cuidadoso proceso de limpieza, filtrado y eliminación de duplicados, está diseñado para demostrar la importancia de la preparación de datos en el entrenamiento de modelos lingüísticos eficientes. Este conjunto de datos es únicamente para uso de investigación y no es adecuado para entornos de producción o entrenamiento de modelos en dominios específicos, como código y matemáticas.
Abrir sitio web

DCLM-baseline Situación del tráfico más reciente

Total de visitas mensuales

29742941

Tasa de rebote

44.20%

Páginas promedio por visita

5.9

Duración promedio de la visita

00:04:44

DCLM-baseline Tendencia de visitas

DCLM-baseline Distribución geográfica de las visitas

DCLM-baseline Fuentes de tráfico

DCLM-baseline Alternativas