深層学習の分野において、正規化層は現代的なニューラルネットワークにおいて不可欠な構成要素の一つとみなされています。最近、Meta FAIRの研究科学者である劉壮氏を筆頭とする研究チームによる「正規化層のないTransformer」という研究成果が大きな注目を集めています。この研究では、Dynamic Tanh(DyT)と呼ばれる新しい技術が提案され、従来の正規化層を使用せずにTransformerアーキテクチャが効率的な学習と推論を実現できることが示されました。
正規化層、特に層正規化(Layer Normalization、LN)は、過去10年間、深層学習モデルの最適化において極めて重要な役割を果たしてきました。LN層は入力活性化をスケーリングおよび圧縮することで、モデルの収束速度を向上させます。しかし、研究者たちは、LN層の広範な使用が唯一の選択肢ではないことを発見しました。彼らの研究はLN層の挙動を観察することから始まり、DyTという新しい代替手法が提案されました。この要素ごとの演算は、LN層のスケーリングと圧縮効果を模倣するだけでなく、複雑な活性化データの計算を省くことができます。
画像出典:画像はAIによって生成され、画像ライセンス提供元はMidjourneyです。
実験において、研究チームは複数のTransformerアーキテクチャにおける従来の正規化層をDyTに置き換えました。その結果、DyTを使用したモデルは安定して学習を行い、より高い最終的な性能を達成することが示されました。さらに素晴らしいことに、この新しい手法は通常、元のアーキテクチャにハイパーパラメータ調整を行う必要がなく、モデル学習の複雑さを軽減します。
研究者たちは、3つの異なるTransformerモデルの順伝播過程を分析することにより、初期のLN層は線形関係を示す一方で、より深いLN層では、入力と出力の関係がtanh関数と似たS字状の曲線を示すことを発見しました。この発見は研究チームを驚かせ、DyTの有効性に対する強力な実証的根拠を提供しました。
劉壮氏は、この研究が正規化層の役割についての深い理解を深めるのに役立ち、DyTがモデルの学習と推論のコスト削減に新たな可能性をもたらすことを期待していると述べています。将来的には、DyTは効率性を重視したネットワーク設計において重要な候補となり、深層学習のさらなる発展を促進すると期待されています。