Nemotron-CC

Transforma o Common Crawl em um conjunto de dados de pré-treinamento de longo prazo refinado

Produto ComumProgramaçãoInteligência ArtificialConjunto de Dados
O Nemotron-CC é um conjunto de dados de 6,3 trilhões de tokens baseado no Common Crawl. Ele transforma o Common Crawl em inglês em um conjunto de dados de pré-treinamento de longo prazo de 6,3 trilhões de tokens, por meio da integração de classificadores, reescrita de dados sintéticos e redução da dependência de filtros heurísticos, contendo 4,4 trilhões de tokens originais desduplicados globalmente e 1,9 trilhões de tokens gerados sinteticamente. Este conjunto de dados atinge um melhor equilíbrio entre precisão e quantidade de dados, sendo significativo para o treinamento de modelos de linguagem de grande porte.
Abrir Site

Nemotron-CC Situação do Tráfego Mais Recente

Total de Visitas Mensais

21505

Taxa de Rejeição

47.10%

Média de Páginas por Visita

1.6

Duração Média da Visita

00:01:24

Nemotron-CC Tendência de Visitas

Nemotron-CC Distribuição Geográfica das Visitas

Nemotron-CC Fontes de Tráfego

Nemotron-CC Alternativas