FlashAttentionは、深層学習におけるTransformerモデル向けに設計された、オープンソースのアテンション機構ライブラリです。計算効率とメモリ使用効率の向上を目的としており、IO感知型のアプローチによってアテンション計算を最適化し、メモリ消費量を削減しつつ、正確な計算結果を維持します。FlashAttention-2では並列性とタスク割り当てがさらに改善され、FlashAttention-3ではHopper GPU向けに最適化され、FP16とBF16データ型をサポートしています。