Recentemente, a ByteDance anunciou o lançamento de sua nova estrutura de seleção de dados, QuaDMix, projetada para melhorar a eficiência e a capacidade de generalização do pré-treinamento de modelos de linguagem grandes (LLMs). É amplamente conhecido que o desempenho do treinamento do modelo é fortemente influenciado pela qualidade e diversidade do conjunto de dados básico. No entanto, os métodos tradicionais de filtragem de dados geralmente consideram a qualidade e a diversidade como objetivos independentes, realizando primeiro a filtragem de qualidade e, em seguida, o balanceamento de domínio.

QQ_1745804240748.png

Essa abordagem de otimização gradual ignora a complexa inter-relação entre qualidade e diversidade. Conjuntos de dados de alta qualidade muitas vezes apresentam viés de domínio, enquanto conjuntos de dados diversificados podem comprometer a qualidade. Portanto, com um orçamento de treinamento fixo, como otimizar simultaneamente essas duas dimensões para maximizar o desempenho do modelo tornou-se um desafio crítico.

A estrutura QuaDMix opera principalmente em três estágios: extração de recursos, agregação de qualidade e amostragem sensível à qualidade e diversidade. Na fase inicial, cada documento recebe rótulos de domínio e várias pontuações de qualidade. Essas pontuações são normalizadas e combinadas para gerar uma pontuação de qualidade abrangente. Em seguida, o sistema amostra documentos usando uma função baseada em sigmóide, priorizando amostras de alta qualidade e garantindo o equilíbrio de domínio por meio de controle paramétrico.

Para otimizar o modelo, o QuaDMix treinou milhares de modelos proxy com diferentes configurações de parâmetros. Um modelo de regressão treinado a partir desses experimentos com proxies pode prever os resultados de desempenho, permitindo a identificação da melhor configuração de amostragem. Esse método permite uma exploração estruturada do espaço de parâmetros de alta dimensão, permitindo melhor alinhamento da seleção de dados com tarefas downstream.

Os resultados experimentais mostram que, em experimentos de validação no conjunto de dados RefinedWeb, o QuaDMix atingiu uma pontuação média de 39,5%, superando vários modelos de referência. Esses modelos de referência incluem seleção aleatória, Fineweb-edu, AskLLM, DCLM, etc. Os resultados experimentais demonstram que a estratégia de otimização conjunta sempre supera os métodos que se concentram apenas na qualidade ou na diversidade. Além disso, a mistura de dados otimizada melhora ainda mais o desempenho de tarefas downstream específicas.

O QuaDMix fornece uma solução sistemática para a seleção de dados de pré-treinamento de modelos de linguagem grandes, resolvendo o desafio de longa data de otimizar simultaneamente a qualidade e a diversidade dos dados. Combinando agregação de qualidade e amostragem sensível ao domínio, o QuaDMix estabelece uma metodologia escalável que melhora a eficiência do pré-treinamento do LLM.

Destaques:

🌟 QuaDMix é uma nova estrutura da ByteDance projetada para otimizar simultaneamente a qualidade e a diversidade dos dados no pré-treinamento de modelos de linguagem grandes.

📈 A estrutura usa um processo de três estágios de extração de recursos, agregação de qualidade e amostragem sensível à qualidade e diversidade para seleção de dados.

🔍 Os resultados experimentais mostram que o QuaDMix apresentou desempenho superior em vários testes de referência, atingindo uma pontuação média de 39,5%, superando vários métodos tradicionais.