Transformerモデルは強力ですが、デコーディング時の効率問題が長年の課題でした。しかし、韓国科学技術院、LG、DeepMindの研究者らが画期的な成果を発表しました。新たなTransformerアーキテクチャ「Block Transformer」により、デコーディング速度が10~20倍に向上したのです!

その秘密は、Transformerの注意機構を「ブロック化」したこと。これにより、従来のTransformerのようにトークンを生成するたびにグローバルなKVキャッシュにアクセスするという非効率な方法を完全に打破しました。

image.png

研究者らは、従来のTransformerの弱点、GPUの有効利用率がわずか1%以下で、残りの99%がメモリアクセスに費やされている点を分析しました。これは明らかに非効率です。そこでBlock Transformerが提案されました。この新しいアーキテクチャは、ブロックレベルの注意機構とブロック内の注意機構を分離することで、モデルの推論スループットを劇的に向上させます。

具体的には、Block Transformerはまずシーケンスをブロックに分割し、Embedderを用いて各ブロックを埋め込みベクトルに変換します。Block Decoderはブロック埋め込みベクトルを処理し、ブロック間のグローバルな依存関係を捉えます。一方、Token Decoderはトークン間のローカルな依存関係を処理し、トークンシーケンスを生成します。

image.png

この手法は、推論速度の向上だけでなく、メモリ消費量の削減にも大きく貢献します。一部のユーザーは、同様のアイデアを試みたものの、モデルの性能が不十分だったと述べていますが、この方法はKVキャッシュを効果的に削減しているようです。

さらに、Block Transformerは複数のゼロショットタスクにおいて、同規模の従来型Transformerと同等、あるいはそれ以上の精度を示しました。これは、効率性を向上させながら、精度を犠牲にしていないことを証明しています。

この研究の意義はそれだけではありません。モデルの訓練コストも削減され、グローバルな注意機構による二次メモリアクセスコストは16分の1に、GPU利用率は1%から44%に向上しました。

論文はこちら: https://arxiv.org/abs/2406.02657