फ्लैश-डिकोडिंग
लंबे संदर्भ अनुमान के लिए फ्लैश-डिकोडिंग
अंतर्राष्ट्रीय चयनप्रोग्रामिंगअनुमानध्यान तंत्र
फ्लैश-डिकोडिंग लंबे संदर्भ अनुमान के लिए एक तकनीक है जो अनुमान में ध्यान तंत्र को उल्लेखनीय रूप से तेज कर सकती है, जिससे उत्पादन गति 8 गुना बढ़ जाती है। यह तकनीक कुंजियों और मानों को समानांतर रूप से लोड करके, और फिर सही ध्यान आउटपुट को बनाए रखने के लिए परिणामों को अलग-अलग फिर से स्केल और संयोजित करके, तेज अनुमान गति प्राप्त करती है। फ्लैश-डिकोडिंग बड़े भाषा मॉडल के लिए उपयुक्त है, और यह लंबे दस्तावेज़, लंबी बातचीत या संपूर्ण कोडबेस जैसे लंबे संदर्भों को संभाल सकता है। फ्लैश-डिकोडिंग पहले से ही FlashAttention पैकेज और xFormers में उपलब्ध है, और यह स्वचालित रूप से Flash-Decoding या FlashAttention विधि का चयन कर सकता है, या कुशल Triton कर्नेल का उपयोग कर सकता है।
फ्लैश-डिकोडिंग नवीनतम ट्रैफ़िक स्थिति
मासिक कुल विज़िट
1045269
बाउंस दर
41.72%
प्रति विज़िट औसत पृष्ठ
3.3
औसत विज़िट अवधि
00:02:41