FlashAttention é uma biblioteca de mecanismos de atenção de código aberto, projetada para modelos Transformer em aprendizado profundo, com o objetivo de melhorar a eficiência computacional e o uso da memória. Ele otimiza o cálculo de atenção usando um método consciente de E/S, reduzindo o consumo de memória, ao mesmo tempo em que mantém resultados de cálculo precisos. O FlashAttention-2 melhora ainda mais o paralelismo e a alocação de trabalho, enquanto o FlashAttention-3 é otimizado para GPUs Hopper, suportando tipos de dados FP16 e BF16.