人工知能分野において、DeepSeek-R1の発表は大きな注目を集めています。この革新的な技術は、AI業界に革命的な進歩をもたらしました。そのマルチヘッド潜在的アテンションネットワーク(Multi-head Latent Attention、MLA)アーキテクチャは、低ランク圧縮技術を活用することで、訓練と推論のコストを大幅に削減し、同等の性能を持つ大規模モデルのわずか10分の1にまで抑えています。この成果は、復旦大学NLP研究所の博士研究員紀焘氏とそのチームによって達成され、任意の事前学習済み大規模言語モデルをMLAアーキテクチャに迅速に移行させることを目指しており、最初からやり直して訓練する必要はありません。
現在、主流の大規模モデルは、標準的なマルチヘッドアテンション機構(MHA)とその変種に基づいていますが、これらのモデルは、MLAと比較して推論コストにおいて著しい不利があります。そのため、研究チームはMHA2MLAフレームワークを提案しました。これは、部分RoPE保持とキーバリュー結合表現の低ランク近似という2つの重要なステップを通じて、MHA/GQAアーキテクチャからMLAへの移行を成功裏に実現します。
MHA2MLAの実装において、チームはまず部分RoPE微調整戦略を通じて、位置エンコーディングを高次元から分離し、位置関連の少数の次元を保持することで、MLAとRoPE間の競合を解決しました。次に、特異値分解(SVD)技術を用いてキーバリューベクトルを低ランク近似し、事前学習済みの知識を最大限に保持しつつ、キャッシュ空間を大幅に削減しました。実験結果によると、事前学習済みデータのわずか0.3%~0.6%を用いて微調整するだけで、移行過程における性能損失をほぼ回復できることが示されました。
他の効率的な推論技術(例えば、4-bit KVキャッシュ量子化など)と組み合わせることで、Llama2-7BモデルのKVキャッシュは92.19%削減され、性能損失はわずか0.5%でした。この成果は、MHA2MLAフレームワークが圧縮技術において優れた互換性を持ち、同時にモデルの推論能力とロングコンテキスト処理能力を維持していることを示しており、リソース効率の高い大規模言語モデルの展開のための新たな実行可能な道筋を提供しています。
しかし、研究チームは、実験がハードウェア条件の制約を受けており、Llama3など128Kロングコンテキスト微調整が必要なモデルはまだ網羅されていないと指摘しています。今後の研究では、より多くのモデルアーキテクチャへの拡張と、パラメータ効率的な微調整戦略の組み合わせにより、移行過程におけるパラメータ更新規模のさらなる削減を目指します。