DCLM-baseline
Conjunto de dados de benchmark para modelos de linguagem de alto desempenho
Produto ComumProgramaçãoProcessamento de Linguagem NaturalModelo de Linguagem
DCLM-baseline é um conjunto de dados pré-treinado para benchmark de modelos de linguagem, contendo 4 trilhões de tokens e 3 bilhões de documentos. Extraído do conjunto de dados Common Crawl, ele passou por cuidadosas etapas de limpeza, filtragem e desduplicação de dados, com o objetivo de demonstrar a importância da curadoria de dados no treinamento de modelos de linguagem eficientes. Este conjunto de dados é destinado apenas para fins de pesquisa e não é adequado para ambientes de produção ou treinamento de modelos para domínios específicos, como código e matemática.
DCLM-baseline Situação do Tráfego Mais Recente
Total de Visitas Mensais
29742941
Taxa de Rejeição
44.20%
Média de Páginas por Visita
5.9
Duração Média da Visita
00:04:44