Dans le domaine de l'apprentissage profond, les couches de normalisation sont considérées comme des composants essentiels des réseaux neuronaux modernes. Récemment, une recherche menée par Liu Zhuang, chercheur scientifique chez Meta FAIR, intitulée « Transformers sans couches de normalisation » a suscité un vif intérêt. Cette étude propose non seulement une nouvelle technique appelée tangente hyperbolique dynamique (Dynamic Tanh, DyT), mais démontre également que l'architecture Transformer peut réaliser un entraînement et une inférence efficaces sans couches de normalisation traditionnelles.
Les couches de normalisation, en particulier la normalisation par couche (Layer Normalization, LN), ont joué un rôle crucial dans l'optimisation des modèles d'apprentissage profond au cours des dix dernières années. Les couches LN accélèrent la vitesse de convergence du modèle en mettant à l'échelle et en compressant les activations d'entrée. Cependant, les chercheurs ont découvert que l'utilisation généralisée des couches LN n'est pas la seule option. Leur recherche a commencé par l'observation du comportement des couches LN, conduisant à une nouvelle méthode alternative, DyT. Cette opération élémentaire par élément simule non seulement les effets de mise à l'échelle et de compression des couches LN, mais évite également les calculs complexes des données d'activation.
Source : Image générée par IA, fournisseur de services d'autorisation d'images : Midjourney
Lors des expériences, l'équipe de recherche a remplacé les couches de normalisation traditionnelles de plusieurs architectures Transformer par DyT. Les résultats montrent que les modèles utilisant DyT peuvent être entraînés de manière stable et obtenir des performances finales supérieures. Plus encourageant encore, cette nouvelle méthode ne nécessite généralement pas d'ajustement des hyperparamètres de l'architecture d'origine, ce qui réduit la complexité de l'entraînement du modèle.
Les chercheurs ont analysé le processus de propagation avant de trois modèles Transformer différents et ont constaté que les couches LN précoces présentaient une relation linéaire, mais que dans les couches LN plus profondes, la relation entre l'entrée et la sortie présentait une courbe en S similaire à la fonction tangente hyperbolique. Cette découverte a surpris l'équipe de recherche et fournit un soutien empirique solide à l'efficacité de DyT.
Liu Zhuang a déclaré que ce travail l'a aidé à approfondir sa compréhension du rôle des couches de normalisation et qu'il espère que DyT offrira de nouvelles possibilités pour réduire les coûts d'entraînement et d'inférence des modèles. À l'avenir, DyT devrait devenir une option importante dans la conception de réseaux axés sur l'efficacité, stimulant ainsi le développement de l'apprentissage profond.