हाल के वर्षों में, ट्रांसफॉर्मर आर्किटेक्चर पर आधारित बड़े भाषा मॉडल (LLMs) में उल्लेखनीय प्रगति हुई है, जैसे कि Gemini-Pro1.5, Claude-3, GPT-4 और Llama-3.1 जैसे नए मॉडल सैकड़ों और हजारों टोकन को संभाल सकते हैं।
हालांकि, इन विस्तारित संदर्भ लंबाई के कारण वास्तविक अनुप्रयोगों में कुछ बड़ी चुनौतियाँ आई हैं। जैसे-जैसे अनुक्रम लंबाई बढ़ती है, डिकोडिंग विलंब बढ़ता है, और मेमोरी सीमा एक गंभीर बाधा बन जाती है। KV कैश अनुमान प्रक्रिया में संदर्भ जानकारी संग्रहीत करता है, और जैसे-जैसे संदर्भ लंबाई बढ़ती है, कैश का आकार भी आनुपातिक रूप से बढ़ता है, जिससे मेमोरी संतृप्ति होती है और लंबे इनपुट अनुक्रमों को संसाधित करने की दक्षता पर गंभीर प्रभाव पड़ता है, इसलिए अनुकूलन समाधानों की तत्काल आवश्यकता है।
हालांकि बाजार में कुछ बिना प्रशिक्षण के तरीके मौजूद हैं, लेकिन वे आमतौर पर कुंजी-मान जोड़े के महत्व को निर्धारित करने के लिए ध्यान वज़न प्राप्त करने पर निर्भर करते हैं, जो उन्हें कुशल ध्यान एल्गोरिदम (जैसे FlashAttention) के साथ असंगत बनाता है। इन विधियों को अक्सर ध्यान मैट्रिक्स की आंशिक पुनर्गणना करने की आवश्यकता होती है, जिससे समय और मेमोरी की लागत आती है। इसलिए, मौजूदा संपीड़न एल्गोरिदम मुख्य रूप से उत्तर उत्पन्न करने से पहले संकेतों को संपीड़ित करने के लिए उपयोग किए जाते हैं, न कि मेमोरी-प्रतिबंधित पीढ़ी प्रक्रिया को अनुकूलित करने के लिए। यह सीमा एक ऐसी संपीड़न तकनीक विकसित करने की आवश्यकता पर जोर देती है जो मॉडल के प्रदर्शन को बनाए रख सके और आर्किटेक्चर संशोधन की आवश्यकता न हो।
सोरबोन विश्वविद्यालय, फ्रांसीसी राष्ट्रीय सूचना और स्वचालन संस्थान, रोम सपिएन्ज़ा विश्वविद्यालय, एडिनबर्ग विश्वविद्यालय और Miniml.AI की एक शोध टीम ने Q-फ़िल्टर प्रस्तुत किए हैं, जो एक शक्तिशाली बिना प्रशिक्षण वाला KV कैश संपीड़न तकनीक है जो मेमोरी उपयोग को अनुकूलित करने के लिए क्वेरी-आधारित फ़िल्टरिंग विधि का उपयोग करती है, साथ ही मॉडल प्रदर्शन को भी बनाए रखती है। Q-फ़िल्टर ध्यान वज़न पर निर्भर होने के बजाय, वर्तमान क्वेरी से संबंधित कुंजी-मान जोड़े के महत्व का मूल्यांकन करके काम करते हैं। यह विधि कुशल ध्यान एल्गोरिदम के साथ संगतता सुनिश्चित करती है, और पुन: प्रशिक्षण या आर्किटेक्चर संशोधन की आवश्यकता नहीं होती है। सबसे प्रासंगिक संदर्भ जानकारी का गतिशील रूप से मूल्यांकन और संरक्षण करके, Q-फ़िल्टर महत्वपूर्ण मेमोरी कमी प्राप्त करते हैं, साथ ही अनुमान गुणवत्ता को भी बनाए रखते हैं।
Q-फ़िल्टर कई मूल्यांकन परिदृश्यों में उत्कृष्ट प्रदर्शन करते हैं, जो हमेशा मौजूदा KV कैश संपीड़न विधियों से बेहतर होते हैं। पाइल डेटासेट पर भाषा मॉडलिंग परीक्षण में, इस तकनीक ने सभी संपीड़न योजनाओं में सबसे कम भ्रम दर प्राप्त की। विशेष रूप से Llama-3.1-70B मॉडल पर, Q-फ़िल्टर अनुक्रम के उत्तरार्ध में महत्वपूर्ण संदर्भ संरक्षण के साथ उल्लेखनीय भ्रम दर में कमी दिखाते हैं।
“सुई ढूँढ़ना” कार्य में, Q-फ़िल्टर ने 91% की सटीकता बनाए रखी, अत्यधिक संदर्भ लंबाई (1K से 64K टोकन तक) में महत्वपूर्ण जानकारी को सफलतापूर्वक संरक्षित किया। व्यापक मूल्यांकन ने इस विधि की श्रेष्ठता की भी पुष्टि की, खासकर उच्च संपीड़न दर (32 गुना) पर, Q-फ़िल्टर लंबे संदर्भ मॉडलिंग बेंचमार्क में उच्चतम स्कोर प्राप्त करते हैं।
पेपर:https://arxiv.org/abs/2503.02812
huggingface:https://huggingface.co/collections/nthngdy/q-filters-67a4994dcb302a3d37f3d119
मुख्य बातें:
🔍 Q-फ़िल्टर एक बिना प्रशिक्षण वाला KV कैश संपीड़न तकनीक है जो मॉडल प्रदर्शन को खोए बिना मेमोरी उपयोग को प्रभावी ढंग से अनुकूलित कर सकती है।
📊 इस पद्धति ने कई मूल्यांकनों में उत्कृष्ट प्रदर्शन किया है, विशेष रूप से भाषा मॉडलिंग और अत्यधिक संदर्भ कार्यों में सबसे कम भ्रम दर और उच्चतम सटीकता प्राप्त की है।
🛠️ Q-फ़िल्टर कुशल ध्यान एल्गोरिदम के साथ संगत हैं, और वास्तविक अनुप्रयोगों में उपयोग करने के लिए केवल मॉडल प्रशिक्षण के बाद एक तैयारी चरण की आवश्यकता होती है।