Nemotron-CC
Transforma o Common Crawl em um conjunto de dados de pré-treinamento de longo prazo refinado
Produto ComumProgramaçãoInteligência ArtificialConjunto de Dados
O Nemotron-CC é um conjunto de dados de 6,3 trilhões de tokens baseado no Common Crawl. Ele transforma o Common Crawl em inglês em um conjunto de dados de pré-treinamento de longo prazo de 6,3 trilhões de tokens, por meio da integração de classificadores, reescrita de dados sintéticos e redução da dependência de filtros heurísticos, contendo 4,4 trilhões de tokens originais desduplicados globalmente e 1,9 trilhões de tokens gerados sinteticamente. Este conjunto de dados atinge um melhor equilíbrio entre precisão e quantidade de dados, sendo significativo para o treinamento de modelos de linguagem de grande porte.
Nemotron-CC Situação do Tráfego Mais Recente
Total de Visitas Mensais
21505
Taxa de Rejeição
47.10%
Média de Páginas por Visita
1.6
Duração Média da Visita
00:01:24