En el campo del aprendizaje profundo, las capas de normalización se consideran uno de los componentes indispensables de las redes neuronales modernas. Recientemente, un resultado de investigación liderado por el científico investigador de Meta FAIR, Liu Zhuang, titulado "Transformadores sin capas de normalización", ha generado un amplio interés. Esta investigación no solo propone una nueva técnica llamada tangente hiperbólica dinámica (Dynamic Tanh, DyT), sino que también demuestra que la arquitectura Transformer puede lograr un entrenamiento e inferencia eficientes sin utilizar capas de normalización tradicionales.
Las capas de normalización, especialmente la normalización por capas (Layer Normalization, LN), han desempeñado un papel crucial en la optimización de los modelos de aprendizaje profundo durante la última década. La capa LN acelera la velocidad de convergencia del modelo al escalar y comprimir las activaciones de entrada. Sin embargo, los investigadores descubrieron que el uso generalizado de las capas LN no es la única opción. Su investigación comenzó observando el comportamiento de las capas LN, y propusieron un nuevo método alternativo, DyT. Esta operación a nivel de elemento no solo puede simular los efectos de escalado y compresión de la capa LN, sino que también elimina el complejo cálculo de datos de activación.
Nota de la fuente de la imagen: La imagen fue generada por IA, proveedor de servicios de licencias de imágenes Midjourney
En los experimentos, el equipo de investigación reemplazó las capas de normalización tradicionales en varias arquitecturas Transformer con DyT. Los resultados mostraron que los modelos que utilizan DyT pueden entrenarse de manera estable y obtener un rendimiento final más alto. Aún más alentador es que este nuevo método generalmente no requiere ajustes de hiperparámetros en la arquitectura original, lo que reduce la complejidad del entrenamiento del modelo.
Los investigadores, mediante el análisis del proceso de propagación hacia adelante de tres modelos Transformer diferentes, descubrieron que las capas LN iniciales muestran una relación lineal, pero en las capas LN más profundas, la relación entre la entrada y la salida presenta una curva en forma de S similar a la función tangente hiperbólica. Este descubrimiento sorprendió al equipo de investigación y proporcionó un sólido apoyo empírico a la eficacia de DyT.
Liu Zhuang declaró que este trabajo le ayudó a comprender profundamente el papel de las capas de normalización y espera que DyT pueda brindar nuevas posibilidades para reducir el costo del entrenamiento e inferencia de los modelos. En el futuro, DyT podría convertirse en una opción importante en el diseño de redes orientadas a la eficiencia, impulsando el desarrollo del aprendizaje profundo.