FlashAttention est une bibliothèque open source de mécanismes d'attention, conçue pour les modèles Transformer en apprentissage profond afin d'améliorer l'efficacité du calcul et l'utilisation de la mémoire. Elle optimise le calcul de l'attention grâce à une approche consciente des E/S, réduisant ainsi l'occupation mémoire tout en préservant la précision des résultats. FlashAttention-2 améliore encore le parallélisme et la répartition du travail, tandis que FlashAttention-3 est optimisé pour les GPU Hopper, prenant en charge les types de données FP16 et BF16.