Flash-Decoding
長文脈コンテキスト推論のためのFlash-Decoding
国際セレクションプログラミング推論アテンション機構
Flash-Decodingは、長文脈コンテキスト推論のための技術です。推論におけるアテンション機構を大幅に高速化し、生成速度を8倍に向上させます。この技術は、キーと値を並列に読み込み、それぞれを再スケーリングして結果を組み合わせることで、正しいアテンション出力を維持し、高速な推論を実現します。Flash-Decodingは大規模言語モデルに適用でき、長文ドキュメント、長文会話、あるいはコードベース全体といった長文脈コンテキストを処理できます。Flash-DecodingはFlashAttentionパッケージとxFormersで提供されており、Flash-DecodingまたはFlashAttentionを自動的に選択できます。また、効率的なTritonカーネルを使用することも可能です。
Flash-Decoding 最新のトラフィック状況
月間総訪問数
1045269
直帰率
41.72%
平均ページ/訪問
3.3
平均訪問時間
00:02:41