Im Bereich des Deep Learnings werden Normalisierungsschichten als unverzichtbare Komponenten moderner neuronaler Netze angesehen. Kürzlich hat eine von Liu Zhuang, Forschungswissenschaftler bei Meta FAIR, geleitete Studie – „Transformer ohne Normalisierungsschichten“ – große Aufmerksamkeit erregt. Diese Studie präsentiert nicht nur eine neue Technik namens Dynamic Tanh (DyT), sondern zeigt auch, dass Transformer-Architekturen auch ohne herkömmliche Normalisierungsschichten effizient trainiert und inferenziert werden können.

Normalisierungsschichten, insbesondere die Layer Normalization (LN), haben in den letzten zehn Jahren eine entscheidende Rolle bei der Optimierung von Deep-Learning-Modellen gespielt. LN-Schichten beschleunigen die Konvergenzgeschwindigkeit des Modells, indem sie die eingehenden Aktivierungen skalieren und komprimieren. Die Forscher haben jedoch festgestellt, dass die weit verbreitete Verwendung von LN-Schichten nicht die einzige Option ist. Ihre Forschung begann mit der Beobachtung des Verhaltens von LN-Schichten und führte zu einer neuen, alternativen Methode: DyT. Diese elementweise Operation kann nicht nur die Skalierungs- und Komprimierungseffekte von LN-Schichten simulieren, sondern spart auch komplexe Berechnungen der Aktivierungsdaten.

Cloud Computing, Internet, Metaverse (3)

Bildquelle: Das Bild wurde mit KI generiert, Bildrechte liegen bei Midjourney.

In Experimenten ersetzte das Forschungsteam die traditionellen Normalisierungsschichten in mehreren Transformer-Architekturen durch DyT. Die Ergebnisse zeigten, dass Modelle mit DyT stabil trainiert werden konnten und eine höhere Endleistung erzielten. Noch erfreulicher ist, dass diese neue Methode in der Regel keine Anpassung der Hyperparameter der ursprünglichen Architektur erfordert, was die Komplexität des Modelltrainings reduziert.

Durch die Analyse des Vorwärtspropagationsvorgangs von drei verschiedenen Transformer-Modellen stellten die Forscher fest, dass frühe LN-Schichten ein lineares Verhalten aufweisen, während in tieferen LN-Schichten die Beziehung zwischen Eingabe und Ausgabe einer S-förmigen Kurve ähnelt, wie sie von der tanh-Funktion erzeugt wird. Diese Entdeckung überraschte das Forschungsteam und lieferte einen starken empirischen Beweis für die Wirksamkeit von DyT.

Liu Zhuang erklärte, dass diese Arbeit ihm geholfen habe, die Funktion von Normalisierungsschichten besser zu verstehen, und er erwartet, dass DyT neue Möglichkeiten zur Senkung der Kosten für Modelltraining und -inferenz eröffnen wird. Zukünftig könnte DyT eine wichtige Option für effizienzorientierte Netzwerkdesigns werden und die Weiterentwicklung des Deep Learnings vorantreiben.