大規模モデルの長文処理の遅さに悩んでいませんか?清華大学が開発した「APBシーケンシャル並列推論フレームワーク」は、大規模モデルに「ターボチャージャー」を搭載したような画期的な技術です!実測によると、超長文処理速度はFlash Attentionのなんと10倍!

image.png

ChatGPTなど大規模モデルの普及により、AIの「読解力」は飛躍的に向上し、数十万文字の長文処理も可能になりました。しかし、膨大な情報に対処する際、従来の大規模モデルは処理速度が低下していました。Transformerアーキテクチャは強力ですが、その中核であるアテンション機構は「スーパー・スキャナー」のようなもので、テキストが長くなるほど、スキャン範囲が指数関数的に増加し、速度が遅くなります。

この課題を解決するため、清華大学の研究者らは複数の研究機関やテクノロジー企業と協力し、APBフレームワークを開発しました。このフレームワークの核心は、「シーケンシャル並列処理+スパースアテンション」の巧妙な組み合わせにあります。

image.png

簡単に言うと、APBフレームワークは効率的な「協調作業チーム」のようなものです。長文を小さな塊に分割し、複数のGPU「チームメンバー」に並列処理を割り当てます。「局部KVキャッシュ圧縮」と「簡素化された通信」というスキルも各メンバーに装備されており、それぞれのタスクを処理しながら、重要な情報を効率的に共有し、長文中の複雑な意味の依存関係を協調して解決します。

驚くべきことに、APBフレームワークは性能を犠牲にすることなく速度を向上させます。128Kの超長文テストでは、速度が大幅に向上するだけでなく、従来のFlash Attentionを凌駕する性能を示しました。NVIDIAが推進するStar AttentionもAPBに凌駕され、速度が1.6倍向上しました。「万能エース」と呼ぶにふさわしい性能です。

この画期的な技術の最も直接的な応用は、大規模モデルの長文処理リクエストの最初のトークン応答時間を大幅に短縮することです。つまり、将来APBフレームワークを搭載した大規模モデルは、ユーザーからの長い指示に対しても、瞬時に理解し、即座に応答できるようになり、「読み込み中…」という長い待ち時間を解消します。

image.png

では、APBフレームワークはどのようにしてこれほどまでに高速化を実現しているのでしょうか?

APBフレームワークは、長文処理における「痛点」である計算量を深く理解しています。従来のアテンション機構の計算量はテキスト長の二乗に比例するため、長文は計算の「ブラックホール」となります。このボトルネックを突破するため、APBフレームワークは2つの「秘策」を用いています。

第一の秘策:並列度を高める、「群衆の知恵」

APBフレームワークは分散計算の利点を最大限に活用し、計算タスクを複数のGPUに分散します。「複数人で協力する」ようなもので、効率は自然と向上します。特にシーケンシャル並列処理において、APBフレームワークは非常に高い拡張性を示し、モデル構造に制限されず、どんなに長いテキストにも対応できます。

第二の秘策:無駄な計算を削減する、「良い鋼材を適切に使う」

APBフレームワークはスパースアテンション機構を導入し、「一網打尽」ではなく「選択的」にアテンションを計算します。「火眼金睛」を持つ専門家のように、テキストの重要な情報にのみ注目し、無関係な部分を無視することで、計算量を大幅に削減します。

しかし、「並列処理」と「スパース性」という2つの秘策は一見簡単に見えますが、実際には「奥深い仕掛け」が隠されています。シーケンシャル並列処理フレームワークにおいて、どのように効率的なスパースアテンション計算を実現するのか?これがAPBフレームワークの真の「ハードコア」です。

シーケンシャル並列環境では、各GPUはテキストの一部情報しか持っていません。「グローバルな認識」を持つスパースアテンションを実現するには、「盲人が象を触る」ようなもので、困難が予想されます。以前のStar AttentionやAPEなどの手法は、性能を犠牲にするか、適用可能な場面が制限されており、この問題を完全に解決できていませんでした。

APBフレームワークは巧みに「大規模通信」という「落とし穴」を回避し、独自の道を切り開き、シーケンシャル並列処理シナリオ向けの低通信スパースアテンション機構を構築しました。この機構の中核となるコンポーネントは以下の通りです。

よりコンパクトなAnchor block(アンカーブロック):Anchor blockは「ナビゲーションシステム」のようなもので、アテンション機構が重要な情報に焦点を当てるように導きます。APBフレームワークはAnchor blockのサイズを革新的に縮小し、より軽量で柔軟なものにし、計算コストを削減しました。

独自のPassing block(パッシングブロック):Passing blockはAPBフレームワークの「魂」となるコンポーネントであり、長距離の意味依存関係の問題を巧みに解決します。前のGPUが処理した重要な情報を「圧縮してパッケージ化」し、次のGPUに伝達することで、各「メンバー」が「全体像を把握」し、長文の「コンテキスト」を理解できるようにします。

クエリ感知のコンテキスト圧縮:APBフレームワークは「クエリ感知」機構も導入し、コンテキスト圧縮器が「問題を理解」し、クエリに関連する重要な情報をより正確に選別・保持することで、効率と正確性をさらに向上させます。

上記の「独自の技術」に基づき、APBフレームワークは流暢な推論プロセスを構築しています:

コンテキスト分割:長文を各GPUに均等に割り当て、先頭にAnchor blockを接続し、「クエリ問題」を埋め込みます。

コンテキスト圧縮:Locretで導入された保留ヘッドを利用して、KVキャッシュを「インテリジェントに圧縮」します。

効率的な通信:AllGather演算子を使用して、圧縮されたKVキャッシュを次のGPUに「伝達」し、Passing blockを構築します。

高速計算:特殊なFlash Attention Kernelと最適化されたアテンションマスクを使用して、効率的な計算を行います。Passing blockは計算が完了すると「役割を終え」、以降の計算には参加しません。

実験結果はAPBフレームワークの優れた性能を雄弁に証明しています。Llama-3.1-8B-instruct、Qwen-2.5-14B-instruct、Yi-34B-200Kなどの複数のモデルとInfiniteBench、RULERなどの複数のベンチマークでのテストにおいて、APBフレームワークは「群雄を圧する」性能を示し、性能と速度の最適なバランスを実現しました。

特に注目すべきは、テキスト長が増加するにつれて、APBフレームワークの速度優位性がより顕著になることで、「長くなればなるほど速くなる」という驚くべき効果を実現しています。その背景には、APBフレームワークの計算量が他の手法よりもはるかに少なく、テキスト長が増加するにつれてその差が拡大するという事実があります。

より詳細なプリフィリング時間分解分析によると、シーケンシャル並列処理技術自体が、アテンションとFFN(フィードフォワードニューラルネットワーク)の計算時間を大幅に短縮できます。APBフレームワークのスパースアテンション機構は、アテンション計算時間をさらに極限まで圧縮します。Star Attentionと比較して、APBフレームワークはPassing blockを使用して長距離の意味依存関係を巧みに伝達し、Anchor blockのサイズを大幅に縮小することで、FFNの追加コストを効果的に削減し、「両立」を実現しています。

さらに素晴らしいことに、APBフレームワークは優れた互換性を示し、さまざまな分散環境やモデル規模に柔軟に対応でき、「厳しい」条件下でも「堅牢な」高性能と高効率を維持できます。

APBフレームワークの登場により、大規模モデルの長文推論の「ボトルネック」が完全に解消され、AIアプリケーションの可能性が無限に広がることは間違いありません。将来、インテリジェントカスタマーサービス、金融分析、科学研究、コンテンツ作成など、あらゆる分野で、「より速く、より強力で、よりスマートな」AIの新時代が到来するでしょう!

プロジェクトアドレス:https://github.com/thunlp/APB

論文アドレス:https://arxiv.org/pdf/2502.12085