FlashAttention es una biblioteca de mecanismos de atención de código abierto, diseñada para modelos Transformer en aprendizaje profundo, con el fin de mejorar la eficiencia de cálculo y el uso de la memoria. Optimiza el cálculo de atención mediante un método consciente de E/S, reduciendo el consumo de memoria al tiempo que mantiene la precisión de los resultados. FlashAttention-2 mejora aún más el paralelismo y la distribución del trabajo, mientras que FlashAttention-3 está optimizado para GPU Hopper, admite tipos de datos FP16 y BF16.