DCLM-baseline
Conjunto de datos de referencia para modelos lingüísticos de alto rendimiento
Producto ComúnProgramaciónProcesamiento del lenguaje naturalModelos lingüísticos
DCLM-baseline es un conjunto de datos preentrenado para la evaluación comparativa de modelos lingüísticos, que contiene 4T tokens y 3B documentos. Extraído del conjunto de datos Common Crawl mediante un cuidadoso proceso de limpieza, filtrado y eliminación de duplicados, está diseñado para demostrar la importancia de la preparación de datos en el entrenamiento de modelos lingüísticos eficientes. Este conjunto de datos es únicamente para uso de investigación y no es adecuado para entornos de producción o entrenamiento de modelos en dominios específicos, como código y matemáticas.
DCLM-baseline Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44