Em meio à intensa competição na área de inteligência artificial, um experimento em larga escala, com um custo de milhões de dólares, está silenciosamente revolucionando a maneira como os grandes modelos de linguagem são treinados. A equipe de pesquisa da Step Star recentemente publicou resultados de pesquisa importantes, tendo treinado, do zero, 3.700 modelos de diferentes escalas, utilizando quase 1 milhão de horas de GPU NVIDIA H800, acumulando um impressionante treinamento de 100 trilhões de tokens. Isso revelou uma lei de escala universal, chamada de "Lei Step", fornecendo um novo guia para o treinamento eficiente de grandes modelos de linguagem.
Esta pesquisa não se limita apenas à exploração da otimização de hiperparâmetros, mas é o primeiro trabalho a examinar completamente a estabilidade dos hiperparâmetros ótimos do modelo em diferentes formas, esparsidades e distribuições de dados. Os resultados da pesquisa mostram que, independentemente da arquitetura do modelo ou da origem dos dados de treinamento (língua ou domínio), a Lei Step demonstra uma robustez impressionante, aumentando significativamente o valor desta ferramenta em aplicações práticas.
Os 3.700 modelos treinados pela equipe abrangem diferentes escalas, combinações de hiperparâmetros, formas, proporções de dados e níveis de esparsidade, incluindo arquiteturas MoE e Dense. Através destes experimentos em larga escala, eles descobriram que a taxa de aprendizado ótima varia de acordo com uma lei de potência em relação à escala dos parâmetros do modelo e à escala dos dados, enquanto o tamanho de lote ótimo está principalmente relacionado à escala dos dados. Esta descoberta revoluciona a compreensão tradicional da indústria sobre a configuração de hiperparâmetros.
Nota da imagem: Imagem gerada por IA, fornecida pela Midjourney.
Os dados experimentais mostram que, sob condições de tamanho de modelo e escala de dados fixos, a paisagem de otimização de hiperparâmetros apresenta características claramente convexas, o que significa que existe uma região de hiperparâmetros ótimos estável e fácil de encontrar. Para verificar isso, a equipe de pesquisa construiu um espaço de visualização tridimensional, mostrando intuitivamente o impacto da taxa de aprendizado e do tamanho do lote na perda de treinamento. Os resultados mostram claramente uma forma de "vale", com o fundo convexo sendo uma área relativamente plana, fornecendo uma base teórica valiosa para a otimização de hiperparâmetros na prática.
Para beneficiar toda a comunidade de IA, a equipe desenvolveu e lançou uma ferramenta universal de estimativa de hiperparâmetros ótimos. Os resultados de previsão desta ferramenta, comparados com os hiperparâmetros ótimos globais obtidos por meio de busca exaustiva, apresentam uma diferença de desempenho de apenas 0,09%. Isso significa que pesquisadores e engenheiros não precisam mais depender de caras buscas em grade, mas podem obter diretamente a configuração de hiperparâmetros próxima da ideal por meio desta ferramenta.
Ainda mais impressionante é a universalidade da Lei Step. A equipe de pesquisa verificou seu escopo de aplicação a partir de três perspectivas diferentes: primeiro, independentemente da forma do modelo - seja voltado para a largura, para a profundidade ou para um equilíbrio entre largura e profundidade - a Lei Step pode prever com precisão a região de hiperparâmetros ótimos; segundo, esta lei não se aplica apenas a modelos Dense, mas também pode ser expandida para modelos MoE com diferentes níveis de esparsidade; terceiro, independentemente de os dados de treinamento serem predominantemente em inglês, bilíngues inglês-chinês, uma mistura de código e inglês, ou predominantemente em código, a Lei Step mostrou uma estabilidade surpreendente.
A pesquisa também revelou a direção de otimização da estratégia de programação da taxa de aprendizado. Diferentemente das estratégias tradicionais de decaimento da taxa de aprendizado, a equipe propõe o uso de uma taxa de aprendizado mínima fixa (1e-5), em vez do método tradicional de definir o valor mínimo como um décimo do valor máximo. Esta alteração permite que o treinamento mantenha um passo de atualização de parâmetros mais razoável na fase posterior, evitando eficazmente a oscilação contínua da função de perda na fase de convergência.
Além disso, a pesquisa descobriu que a perda de treinamento suavizada e a perda de validação apresentam hiperparâmetros ótimos altamente consistentes, o que fornece um método mais econômico para a seleção de hiperparâmetros - os pesquisadores podem usar o monitoramento da perda de treinamento suavizada para orientar o ajuste de hiperparâmetros, sem precisar avaliar frequentemente o desempenho do modelo no conjunto de validação.
Apesar dos resultados significativos, a equipe de pesquisa da Step Star admite que isso é apenas o começo. Eles planejam lançar gradualmente os detalhes de cada experimento, incluindo os pontos de verificação finais de quase 4.000 modelos, para que toda a comunidade possa realizar análises e interpretações teóricas mais aprofundadas. As direções futuras de pesquisa incluem a exploração da convexidade do espaço tridimensional Loss-BS-LR, a melhoria do método de ajuste dos hiperparâmetros ótimos, a explicação das mudanças nas regiões ótimas sob diferentes configurações e a pesquisa aprofundada da dinâmica de treinamento sob diferentes configurações.
Os trabalhos subsequentes da série Predictable Scale podem discutir ainda mais a previsão de desempenho de modelos muito grandes, as propriedades de escala de Code&Math e as características de escala de diferentes tipos de Attention. É previsível que esta série de pesquisas fornecerá orientação teórica e ferramentas práticas mais completas para o treinamento eficiente de grandes modelos de linguagem, impulsionando o desenvolvimento da tecnologia de IA em direção a uma direção mais eficiente e controlável.