Na área de aprendizado profundo, as camadas de normalização são consideradas um componente essencial das redes neurais modernas. Recentemente, uma pesquisa liderada pelo cientista de pesquisa da Meta FAIR, Liu Zhuang, intitulada "Transformers sem camadas de normalização", chamou a atenção. Esta pesquisa não apenas propõe uma nova técnica chamada tanh dinâmica (Dynamic Tanh, DyT), mas também demonstra que a arquitetura Transformer pode alcançar treinamento e inferência eficientes sem o uso de camadas de normalização tradicionais.

As camadas de normalização, especialmente a normalização por camada (Layer Normalization, LN), desempenharam um papel crucial na otimização de modelos de aprendizado profundo na última década. As camadas LN aceleram a velocidade de convergência do modelo ao escalonar e comprimir as ativações de entrada. No entanto, os pesquisadores descobriram que o uso generalizado das camadas LN não é a única opção. Sua pesquisa começou observando o comportamento das camadas LN, propondo um novo método alternativo, DyT. Esta operação elementar não apenas simula os efeitos de escala e compressão das camadas LN, mas também elimina o cálculo complexo dos dados de ativação.

Computação em nuvem, Internet, Metaverso (3)

Observação da fonte da imagem: A imagem foi gerada por IA, com direitos de uso concedidos pela Midjourney.

Em experimentos, a equipe de pesquisa substituiu as camadas de normalização tradicionais em várias arquiteturas Transformer pela DyT. Os resultados mostraram que os modelos que usam DyT podem ser treinados de forma estável e alcançar um desempenho final melhor. Mais animador ainda, este novo método geralmente não requer ajustes de hiperparâmetros na arquitetura original, reduzindo a complexidade do treinamento do modelo.

Os pesquisadores analisaram o processo de propagação direta de três modelos Transformer diferentes e descobriram que as camadas LN iniciais exibem uma relação linear, mas nas camadas LN mais profundas, a relação entre entrada e saída apresenta uma curva em S semelhante à função tanh. Esta descoberta surpreendeu a equipe de pesquisa e forneceu um forte suporte empírico para a eficácia da DyT.

Liu Zhuang disse que este trabalho o ajudou a entender melhor o papel das camadas de normalização e espera que a DyT abra novas possibilidades para reduzir os custos de treinamento e inferência de modelos. No futuro, a DyT pode se tornar uma opção importante no design de redes orientadas à eficiência, impulsionando o desenvolvimento do aprendizado profundo.