FlashAttention
高速かつメモリ効率の高い正確なアテンション機構
一般製品プログラミング深層学習Transformer
FlashAttentionは、深層学習におけるTransformerモデル向けに設計された、オープンソースのアテンション機構ライブラリです。計算効率とメモリ使用効率の向上を目的としており、IO感知型のアプローチによってアテンション計算を最適化し、メモリ消費量を削減しつつ、正確な計算結果を維持します。FlashAttention-2では並列性とタスク割り当てがさらに改善され、FlashAttention-3ではHopper GPU向けに最適化され、FP16とBF16データ型をサポートしています。
FlashAttention 最新のトラフィック状況
月間総訪問数
474564576
直帰率
36.20%
平均ページ/訪問
6.1
平均訪問時間
00:06:34