Flash-Decoding es una técnica para la inferencia de contextos largos que acelera significativamente el mecanismo de atención en la inferencia, aumentando la velocidad de generación hasta 8 veces. Esta técnica carga en paralelo las claves y los valores, y luego los reescala y combina por separado para mantener la salida de atención correcta, logrando así una velocidad de inferencia más rápida. Flash-Decoding es aplicable a modelos de lenguaje de gran tamaño y puede procesar contextos largos como documentos extensos, conversaciones largas o bases de código completas. Flash-Decoding ya está disponible en los paquetes FlashAttention y xFormers, permitiendo la selección automática entre Flash-Decoding y FlashAttention, y también la utilización de núcleos Triton de alta eficiencia.