Recentemente, a equipe de inteligência artificial da Apple, em colaboração com a Universidade de Washington e outras instituições, lançou um modelo de linguagem de código aberto chamado DCLM. Este modelo possui 700 milhões de parâmetros e foi treinado usando até 2,5 trilhões de tokens de dados, ajudando-nos a entender e gerar linguagem de forma mais eficaz.
Mas o que é um modelo de linguagem? Simplificando, é um programa que pode analisar e gerar linguagem, auxiliando em diversas tarefas, como tradução, geração de texto e análise de sentimentos. Para que esses modelos funcionem bem, precisamos de conjuntos de dados de alta qualidade. No entanto, obter e organizar esses dados não é tarefa fácil, pois precisamos filtrar conteúdo irrelevante ou prejudicial e remover informações duplicadas.
Para enfrentar esse desafio, a equipe de pesquisa da Apple lançou o "DataComp for Language Models" (DCLM), uma ferramenta para otimizar conjuntos de dados para modelos de linguagem. Eles recentemente disponibilizaram o modelo e o conjunto de dados DCIM em código aberto na plataforma Hugging Face. A versão de código aberto inclui DCLM-7B, DCLM-1B, dclm-7b-it, DCLM-7B-8k, dclm-baseline-1.0 e dclm-baseline-1.0-parquet, permitindo que pesquisadores realizem experimentos em larga escala para encontrar as estratégias mais eficazes de organização de dados.
https://huggingface.co/collections/mlfoundations/dclm-669938432ef5162d0d0bc14b
A principal vantagem do DCLM reside em seu fluxo de trabalho estruturado. Os pesquisadores podem escolher modelos de diferentes tamanhos, de 412 milhões a 700 milhões de parâmetros, e experimentar diferentes métodos de organização de dados, como desduplicação e filtragem. Por meio desses experimentos sistemáticos, os pesquisadores podem avaliar claramente a qualidade de diferentes conjuntos de dados. Isso não apenas estabelece uma base para pesquisas futuras, mas também ajuda-nos a entender como melhorar os conjuntos de dados para aprimorar o desempenho dos modelos.
Por exemplo, usando o conjunto de dados de referência criado com o DCLM, a equipe de pesquisa treinou um modelo de linguagem com 700 milhões de parâmetros que atingiu uma precisão de 64% em 5-shot no teste de referência MMLU! Isso representa uma melhoria de 6,6 pontos percentuais em relação ao nível anterior e reduziu o uso de recursos computacionais em 40%. O desempenho do modelo de referência DCLM também é comparável ao Mistral-7B-v0.3 e Llama38B, os quais exigem muito mais recursos computacionais.
O lançamento do DCLM estabelece um novo padrão para a pesquisa em modelos de linguagem, ajudando os cientistas a aprimorar sistematicamente o desempenho dos modelos, ao mesmo tempo em que reduz os recursos computacionais necessários.
Destaques:
1️⃣ A IA da Apple, em colaboração com diversas instituições, lançou o DCLM, criando um poderoso modelo de linguagem de código aberto.
2️⃣ O DCLM fornece uma ferramenta padronizada para otimizar conjuntos de dados, auxiliando os pesquisadores em experimentos eficazes.
3️⃣ O novo modelo alcançou avanços significativos em testes importantes, reduzindo simultaneamente a necessidade de recursos computacionais.