NVIDIAと大学が共同で「FlashInfer」を発表：大規模言語モデルの推論効率を向上させる新しいカーネルライブラリ

大規模言語モデル（LLM）が現代の人工知能アプリケーションで広く利用されるようになり、チャットボットやコードジェネレーターなどのツールはこれらのモデルの能力に依存しています。しかし、それに伴い、推論過程における効率性の問題もますます顕著になっています。

特に、FlashAttentionやSparseAttentionなどのアテンションメカニズムを扱う場合、多様なワークロード、動的な入力パターン、GPUリソースの制限などに直面し、しばしば力不足になります。これらの課題に加え、高遅延とメモリボトルネックにより、スケーラブルで迅速なLLM推論をサポートするためには、より効率的で柔軟なソリューションが急務となっています。

この問題を解決するために、ワシントン大学、NVIDIA、Perplexity AI、カーネギーメロン大学の研究者らが共同で、LLM推論用に設計されたAIライブラリおよびカーネルジェネレーターであるFlashInferを開発しました。FlashInferは、FlashAttention、SparseAttention、PageAttention、サンプリングなど、複数のアテンションメカニズムを網羅した高性能なGPUカーネル実装を提供します。その設計理念は柔軟性と効率性を重視しており、LLM推論サービスにおける重要な課題に対処することを目指しています。

FlashInferの技術的特徴は以下の通りです。

1. 包括的なアテンションカーネル：プリフィリング、デコーディング、追加のアテンションを含む複数のアテンションメカニズムをサポートし、様々なKV-cache形式と互換性があり、単一リクエストとバッチサービスの両方のパフォーマンスを向上させます。

2. 最適化された共有接頭辞デコーディング：グループ化クエリアテンション（GQA）と融合回転位置エンベディング（RoPE）アテンションにより、FlashInferは大幅な速度向上を実現しました。例えば、長いプロンプトのデコーディングにおいては、vLLMのPage Attention実装よりも31倍高速です。

3. 動的負荷分散スケジューリング：FlashInferのスケジューラーは、入力の変化に合わせて動的に調整され、GPUのアイドル時間を削減し、効率的な利用を確保します。CUDA Graphsとの互換性により、本番環境での適用性がさらに向上しています。

パフォーマンス面では、FlashInferは複数のベンチマークテストで優れた結果を示し、特に長いコンテキストの推論と並列生成タスクにおいて遅延を大幅に削減しました。NVIDIA H100 GPUでは、並列生成タスクで13～17％の速度向上を実現しました。動的スケジューラーと最適化されたカーネルにより、帯域幅とFLOP利用率が大幅に向上し、特にシーケンス長が不均一または均一な場合に顕著です。

FlashInferは、LLM推論の課題に対して現実的で効率的なソリューションを提供し、パフォーマンスとリソース利用効率を大幅に向上させます。その柔軟な設計と統合能力により、LLMサービスフレームワークの発展を促進する重要なツールとなっています。オープンソースプロジェクトとして、FlashInferは研究界におけるさらなる協力とイノベーションを促進し、人工知能インフラストラクチャ分野における継続的な改善と新たな課題への適応を保証します。

プロジェクトへのアクセス：https://github.com/flashinfer-ai/flashinfer

要点：
🌟 FlashInferは、大規模言語モデルの推論用に設計された新しくリリースされたAIライブラリで、効率を大幅に向上させます。
⚡ このライブラリは複数のアテンションメカニズムをサポートし、GPUリソースの利用を最適化し、推論の遅延を削減します。
🚀 FlashInferはオープンソースプロジェクトとして、研究者による共同参加を歓迎し、AIインフラストラクチャのイノベーションと発展を促進します。