DCLM-baseline

Conjunto de dados de benchmark para modelos de linguagem de alto desempenho

Produto ComumProgramaçãoProcessamento de Linguagem NaturalModelo de Linguagem

DCLM-baseline é um conjunto de dados pré-treinado para benchmark de modelos de linguagem, contendo 4 trilhões de tokens e 3 bilhões de documentos. Extraído do conjunto de dados Common Crawl, ele passou por cuidadosas etapas de limpeza, filtragem e desduplicação de dados, com o objetivo de demonstrar a importância da curadoria de dados no treinamento de modelos de linguagem eficientes. Este conjunto de dados é destinado apenas para fins de pesquisa e não é adequado para ambientes de produção ou treinamento de modelos para domínios específicos, como código e matemática.

Conjunto de dados de alto desempenho para benchmark de modelos de linguagem
Contém um grande número de tokens e documentos
adequado para treinamento em larga escala
Limpo
filtrado e desduplicado para garantir a qualidade dos dados
Fornece um benchmark para pesquisa de desempenho de modelos de linguagem
Não adequado para ambientes de produção ou treinamento de modelos para domínios específicos
Ajuda os pesquisadores a entenderem o impacto da curadoria de dados no desempenho do modelo
Promove a pesquisa e o desenvolvimento de modelos de linguagem eficientes

O público-alvo do conjunto de dados DCLM-baseline são pesquisadores e desenvolvedores na área de processamento de linguagem natural. Eles podem utilizar este conjunto de dados para treinar e avaliar seus próprios modelos de linguagem
especialmente em benchmarks. Devido à escala e à qualidade do conjunto de dados
ele é particularmente adequado para projetos de pesquisa que exigem grandes quantidades de dados para o treinamento do modelo.

Pesquisadores utilizaram o DCLM-baseline para treinar seus próprios modelos de linguagem e obtiveram excelentes resultados em vários benchmarks.
Instituições de ensino o utilizam como recurso didático para ajudar os alunos a entenderem a construção e o treinamento de modelos de linguagem.
Empresas utilizam este conjunto de dados para testar o desempenho do modelo e otimizar seus produtos de processamento de linguagem natural.

Passo 1: Acesse o site Hugging Face e procure pelo conjunto de dados DCLM-baseline.
Passo 2: Leia a descrição e o guia de uso do conjunto de dados para entender sua estrutura e características.
Passo 3: Baixe o conjunto de dados e prepare os recursos computacionais necessários para o treinamento do modelo.
Passo 4: Utilize o conjunto de dados para treinar o modelo de linguagem
monitorando o processo de treinamento e o desempenho do modelo.

Abrir Site

DCLM-baseline Situação do Tráfego Mais Recente

Total de Visitas Mensais

29742941

Taxa de Rejeição

44.20%

Média de Páginas por Visita

5.9

Duração Média da Visita

00:04:44

DCLM-baseline Tendência de Visitas

DCLM-baseline Distribuição Geográfica das Visitas

Best AI Websites & Tools

DCLM-baseline

DCLM-baseline Situação do Tráfego Mais Recente

DCLM-baseline Tendência de Visitas

DCLM-baseline Distribuição Geográfica das Visitas

DCLM-baseline Fontes de Tráfego

DCLM-baseline Alternativas

DCLM-baseline — Conjunto de dados de benchmark para modelos de linguagem de alto desempenho

Instella — Instella é um modelo de linguagem de código aberto de alto desempenho desenvolvido pela AMD, projetado para acelerar o desenvolvimento de modelos de linguagem de código aberto.

Moonlight-16B-A3B — Moonlight-16B-A3B é um modelo de especialista misto de 16B parâmetros treinado com o otimizador Muon, projetado para geração de linguagem eficiente.

Xwen-Chat — Xwen-Chat é um conjunto de modelos de linguagem grandes focados em diálogo em chinês, oferecendo diversos modelos e serviços de geração de linguagem.

Dolphin R1 — Dolphin R1 é um conjunto de dados para treinamento de modelos de raciocínio, contendo 800.000 amostras.

MiniMax-01 — Modelo de linguagem poderoso com 456 bilhões de parâmetros, capaz de processar contextos de até 4 milhões de tokens.

Nemotron-CC — Transforma o Common Crawl em um conjunto de dados de pré-treinamento de longo prazo refinado

YuLan-Mini — Modelo de linguagem leve e de alta eficiência com 240 milhões de parâmetros

P-MMEval — Benchmark de avaliação multilíngue e multitarefa para modelos de linguagem grandes (LLMs)

OLMo 2 1124 13B Mistura de Preferências — Conjunto de dados de mistura de preferências multilíngue em larga escala

OLMo-2-1124-13B-DPO — Modelo de linguagem inglês de alto desempenho, adequado para diversas tarefas.

OpenScholar — Modelo de linguagem aprimorado por recuperação para síntese de literatura científica

dolmino-mix-1124 — Conjunto de dados de alta qualidade, usado na segunda etapa do treinamento do OLMo2.

OLMo 2 13B — Modelo de linguagem de referência acadêmica em inglês de alto desempenho

OLMo 2 — Modelo de linguagem totalmente aberto de última geração

Tülu 3 — Framework de pós-treinamento de modelos de linguagem avançados de código aberto

MobileLLM-1B — Modelo de linguagem de um bilhão de parâmetros desenvolvido pelo Meta, adequado para aplicações em dispositivos.

PARTNR — Benchmark de Planejamento e Raciocínio Multiagente

MobileLLM-350M — Modelo de linguagem eficiente e otimizado com menos de um bilhão de parâmetros, projetado para aplicações em dispositivos.

SimpleQA — Benchmark para avaliar a capacidade de modelos de linguagem em responder a perguntas factuais.

Zamba2-7B — Modelo de linguagem pequeno e de alto desempenho

Amostragem baseada em entropia — Técnica de amostragem baseada em entropia, otimizando a diversidade e a precisão da saída do modelo.

Converse com seus Documentos — Aplicativo Python para conversação em linguagem natural com documentos.

TAG-Bench — Benchmark de processamento de linguagem natural para consultas de banco de dados

MedTrinity-25M — Conjunto de dados médicos multimodais em larga escala

Meta Llama 3.1-405B — Modelo de linguagem pré-treinado multilíngue de grande escala

Arcee Spark — Modelo de linguagem eficiente e compacto com 7 bilhões de parâmetros

Predição de múltiplos tokens — Modelo de predição de múltiplos tokens, aprimorando a eficiência e o desempenho de modelos de linguagem.

MDLM — Um modelo de linguagem de difusão mascarada eficiente.

Samba — Implementação oficial do modelo de linguagem de contexto infinito e alta eficiência.