No mundo em rápida evolução dos Grandes Modelos de Linguagem (LLMs), os custos de treinamento e inferência de modelos estão se tornando um foco crescente de pesquisa e aplicação. Recentemente, a equipe Tencent HunYuan publicou um estudo importante que investiga profundamente as "Leis de Escala" do treinamento de quantização de ponto flutuante de baixa precisão, ou seja, as leis de escala do treinamento de quantização de ponto flutuante. O cerne desta pesquisa é explorar como reduzir significativamente os custos computacionais e de armazenamento sem perda de desempenho, reduzindo a precisão do modelo.
A equipe de pesquisa conduziu até 366 conjuntos de treinamento de quantização de ponto flutuante com diferentes escalas de parâmetros e precisão, analisando sistematicamente vários fatores que afetam a eficácia do treinamento, incluindo o tamanho do modelo (N), a quantidade de dados de treinamento (D), o bit de expoente (E), o bit de mantissa (M) e a granularidade de quantização (B). Através desses experimentos, os pesquisadores derivaram uma lei de escala unificada, revelando como configurar eficazmente os dados de treinamento e os parâmetros do modelo em diferentes precisões para obter os melhores resultados de treinamento.
O mais importante é que a pesquisa indica que, em qualquer treinamento de quantização de ponto flutuante de baixa precisão, existe um "efeito limite", ou seja, com uma determinada quantidade de dados, o desempenho do modelo atingirá o ótimo, e exceder essa quantidade de dados pode levar a uma queda no desempenho. Além disso, a pesquisa também descobriu que a precisão teoricamente ideal de treinamento de quantização de ponto flutuante com o melhor custo-benefício deve estar entre 4 e 8 bits, o que tem um significado orientador importante para o desenvolvimento de LLMs eficientes.
Este estudo não apenas preenche uma lacuna na área de treinamento de quantização de ponto flutuante, mas também fornece uma referência para fabricantes de hardware no futuro, ajudando-os a otimizar a capacidade de computação de ponto flutuante em diferentes precisões. Finalmente, esta pesquisa fornece uma direção clara para a prática de treinamento de grandes modelos, garantindo que o treinamento eficiente ainda possa ser realizado mesmo com recursos limitados.
Endereço do artigo: https://arxiv.org/pdf/2501.02423