फ्लैश-डिकोडिंग लंबे संदर्भ अनुमान के लिए एक तकनीक है जो अनुमान में ध्यान तंत्र को उल्लेखनीय रूप से तेज कर सकती है, जिससे उत्पादन गति 8 गुना बढ़ जाती है। यह तकनीक कुंजियों और मानों को समानांतर रूप से लोड करके, और फिर सही ध्यान आउटपुट को बनाए रखने के लिए परिणामों को अलग-अलग फिर से स्केल और संयोजित करके, तेज अनुमान गति प्राप्त करती है। फ्लैश-डिकोडिंग बड़े भाषा मॉडल के लिए उपयुक्त है, और यह लंबे दस्तावेज़, लंबी बातचीत या संपूर्ण कोडबेस जैसे लंबे संदर्भों को संभाल सकता है। फ्लैश-डिकोडिंग पहले से ही FlashAttention पैकेज और xFormers में उपलब्ध है, और यह स्वचालित रूप से Flash-Decoding या FlashAttention विधि का चयन कर सकता है, या कुशल Triton कर्नेल का उपयोग कर सकता है।