Flash-Decoding

長文脈コンテキスト推論のためのFlash-Decoding

国際セレクションプログラミング推論アテンション機構
Flash-Decodingは、長文脈コンテキスト推論のための技術です。推論におけるアテンション機構を大幅に高速化し、生成速度を8倍に向上させます。この技術は、キーと値を並列に読み込み、それぞれを再スケーリングして結果を組み合わせることで、正しいアテンション出力を維持し、高速な推論を実現します。Flash-Decodingは大規模言語モデルに適用でき、長文ドキュメント、長文会話、あるいはコードベース全体といった長文脈コンテキストを処理できます。Flash-DecodingはFlashAttentionパッケージとxFormersで提供されており、Flash-DecodingまたはFlashAttentionを自動的に選択できます。また、効率的なTritonカーネルを使用することも可能です。
ウェブサイトを開く

Flash-Decoding 最新のトラフィック状況

月間総訪問数

1045269

直帰率

41.72%

平均ページ/訪問

3.3

平均訪問時間

00:02:41

Flash-Decoding 訪問数の傾向

Flash-Decoding 訪問地理的分布

Flash-Decoding トラフィックソース

Flash-Decoding 代替品