DCLM-baseline

Conjunto de dados de benchmark para modelos de linguagem de alto desempenho

Produto ComumProgramaçãoProcessamento de Linguagem NaturalModelo de Linguagem
DCLM-baseline é um conjunto de dados pré-treinado para benchmark de modelos de linguagem, contendo 4 trilhões de tokens e 3 bilhões de documentos. Extraído do conjunto de dados Common Crawl, ele passou por cuidadosas etapas de limpeza, filtragem e desduplicação de dados, com o objetivo de demonstrar a importância da curadoria de dados no treinamento de modelos de linguagem eficientes. Este conjunto de dados é destinado apenas para fins de pesquisa e não é adequado para ambientes de produção ou treinamento de modelos para domínios específicos, como código e matemática.
Abrir Site

DCLM-baseline Situação do Tráfego Mais Recente

Total de Visitas Mensais

29742941

Taxa de Rejeição

44.20%

Média de Páginas por Visita

5.9

Duração Média da Visita

00:04:44

DCLM-baseline Tendência de Visitas

DCLM-baseline Distribuição Geográfica das Visitas

DCLM-baseline Fontes de Tráfego

DCLM-baseline Alternativas