近年、大規模言語モデル(LLM)は急速に発展しており、その中心となっているのがTransformerモデルです。Transformerの中核はアテンション機構であり、まるで情報フィルターのように、文章の中で最も重要な部分に注目します。しかし、強力なTransformerであっても、無関係な情報に邪魔されることがあります。図書館で本を探しているのに、関係のない本に埋もれてしまい、効率が悪いようなものです。

このアテンション機構によって生じる無関係な情報は、論文では「アテンションノイズ」と呼ばれています。重要な情報をファイルから探し出したいのに、Transformerモデルのアテンションが様々な無関係な箇所に散漫になっている様子を想像してみてください。まるで近視眼のように、焦点が定まらないのです。

image.png

この問題を解決するために、本論文ではDifferential Transformer(DIFF Transformer)が提案されています。名前は高度に聞こえますが、原理は非常にシンプルです。ノイズキャンセリングヘッドホンと同様に、2つの信号の差によってノイズを除去します。

Differential Transformerの中核は差分アテンション機構です。クエリとキーベクトルを2つのグループに分け、それぞれについて2つのアテンションマップを計算し、その2つのマップを減算して、最終的なアテンションスコアを得ます。これは、2台のカメラで同じ物体を撮影し、2枚の写真を重ね合わせるようなものです。違いが強調されます。

image.png

この方法により、Differential Transformerはアテンションノイズを効果的に除去し、モデルが重要な情報に集中できるようになります。ノイズキャンセリングヘッドホンを装着して周囲のノイズが消え、聞きたい音がクリアに聞こえるようになるようなものです。

論文では、Differential Transformerの優位性を示す一連の実験が行われています。まず、言語モデリングにおいて優れた性能を示し、Transformerの65%のモデルサイズまたはトレーニングデータで同様の効果が得られます。

image.png

次に、Differential Transformerは長文モデリングにおいても優れており、より長いコンテキスト情報を効果的に活用できます。

さらに重要なのは、Differential Transformerが重要な情報の検索、モデルの幻覚の低減、コンテキスト学習において顕著な優位性を示していることです。

image.png

重要な情報の検索において、Differential Transformerは正確な検索エンジンのように、膨大な情報の中から必要な情報を正確に見つけることができます。情報が非常に複雑な状況下でも、高い精度を維持できます。

モデルの幻覚の低減において、Differential Transformerはモデルが「でたらめなことを言う」のを効果的に回避し、より正確で信頼性の高いテキスト要約や質問応答の結果を生成します。

コンテキスト学習において、Differential Transformerはまるで秀才のように、少数のサンプルから新しい知識を迅速に学習でき、学習効果もより安定しています。Transformerのようにサンプルの順序の影響を受けにくいのです。

さらに、Differential Transformerはモデル活性化値における異常値を効果的に低減できます。これは、モデルの量子化により適しており、より低いビットの量子化を実現し、モデルの効率を向上させることができます。

総じて、Differential Transformerは差分アテンション機構によってTransformerモデルのアテンションノイズ問題を効果的に解決し、多くの点で顕著な改善を実現しました。大規模言語モデルの発展に新たな方向性を示しており、今後多くの分野で重要な役割を果たすでしょう。

論文アドレス:https://arxiv.org/pdf/2410.05258