近年、大規模言語モデルは人々の生活や職業に大きな影響を与えています。

オープンソースの機械学習ライブラリであるvLLMは、PagedAttentionアルゴリズムによって大規模言語モデルの推論速度を向上させ、キーバリューキャッシュメモリを効率的に管理することでスループットを向上させます。

PagedAttentionを搭載したvLLMは、モデルアーキテクチャを変更することなく、LLMサービスの最高レベルに達しました。

研究者らは、vLLMが他のシステムと比較して、有名なLLMのスループットを2~4倍向上させたことを発見しました。