इस स्मार्ट डिवाइसों के सर्वत्र मौजूद होने के युग में, हम चाहते हैं कि मोबाइल फोन, टैबलेट, और यहां तक कि स्मार्ट होम डिवाइसों में भी अधिक शक्तिशाली बुद्धिमान प्रसंस्करण क्षमता हो। लेकिन, इन एज डिवाइसों के हार्डवेयर संसाधन सीमित हैं, विशेष रूप से मेमोरी और गणना क्षमता, जो बड़े भाषा मॉडल (LLMs) के उनके ऊपर तैनाती और संचालन को सीमित करता है। कल्पना कीजिए, अगर हम इन उपकरणों को प्राकृतिक भाषा को समझने, प्रश्नों का उत्तर देने, और यहां तक कि रचनात्मकता करने में सक्षम शक्तिशाली मॉडल दे सकें, तो यह हमारी दुनिया को कैसे बदल देगा?
यही T-MAC तकनीक के जन्म का背景 है। T-MAC, जिसका पूरा नाम "Table-Lookup-based MAC" है, एक खोज तालिका आधारित विधि है, जो कम बिट्स वाले बड़े भाषा मॉडल को CPU पर प्रभावी ढंग से चलाने की अनुमति देती है, जिससे एज डिवाइसों पर बुद्धिमान उन्नयन संभव होता है।
बड़े भाषा मॉडल आमतौर पर अरबों या यहां तक कि सैकड़ों अरबों पैरामीटर होते हैं, जिन्हें स्टोर करने के लिए बहुत अधिक मेमोरी की आवश्यकता होती है। इन मॉडलों को एज डिवाइसों पर तैनात करने के लिए, हमें मॉडल के वेट्स को क्वांटाइज़ करना होगा, यानी वेट्स को व्यक्त करने के लिए कम बिट्स का उपयोग करना होगा, जिससे मॉडल की मेमोरी खपत कम हो सके। लेकिन, क्वांटाइज़ किए गए मॉडल के संचालन के लिए मिश्रित सटीकता वाले मैट्रिक्स गुणन (mpGEMM) की आवश्यकता होती है, जो मौजूदा हार्डवेयर और सॉफ़्टवेयर सिस्टम में सामान्य नहीं है और इसके लिए प्रभावी समर्थन की कमी है।
T-MAC का मूल विचार पारंपरिक डेटा प्रकार आधारित गुणन संचालन को बिट्स पर आधारित खोज तालिका (LUT) खोज में बदलना है। यह विधि न केवल गुणन संचालन को समाप्त करती है, बल्कि जोड़ने के संचालन को भी कम करती है, जिससे गणना दक्षता में काफी सुधार होता है।
विशेष रूप से, T-MAC निम्नलिखित चरणों के माध्यम से कार्यान्वित होता है:
वेट मैट्रिक्स को कई एक-बिट मैट्रिक्स में विभाजित करना।
सक्रियता वेक्टर और सभी संभावित एक-बिट पैटर्नों के गुणन का पूर्व-गणना करना और परिणामों को खोज तालिका में स्टोर करना।
अनुमान के दौरान, खोज तालिका इंडेक्सिंग और संचयी संचालन के माध्यम से, अंतिम मैट्रिक्स गुणन परिणाम को तेजी से प्राप्त करना।
विभिन्न एज डिवाइसों पर परीक्षण के माध्यम से, T-MAC ने महत्वपूर्ण प्रदर्शन लाभ दिखाया है। मौजूदा llama.cpp कार्यान्वयन की तुलना में, T-MAC ने थ्रूपुट में 4 गुना वृद्धि की है और ऊर्जा खपत में 70% की कमी की है। इससे यह सुनिश्चित होता है कि यहां तक कि निम्न श्रेणी के उपकरण, जैसे Raspberry Pi5, भी वयस्कों की औसत पढ़ने की गति से अधिक तेजी से टोकन उत्पन्न कर सकते हैं।
T-MAC न केवल सिद्धांत में लाभकारी है, बल्कि इसके व्यावहारिक अनुप्रयोग की संभावनाएं भी हैं। चाहे स्मार्टफोन पर वास्तविक समय की वॉयस रिकग्निशन और प्राकृतिक भाषा प्रसंस्करण हो, या स्मार्ट होम डिवाइसों पर अधिक बुद्धिमान इंटरैक्टिव अनुभव प्रदान करना, T-MAC महत्वपूर्ण भूमिका निभा सकता है।
T-MAC तकनीक एज डिवाइसों पर कम बिट्स वाले बड़े भाषा मॉडल की तैनाती के लिए एक प्रभावी और ऊर्जा-कुशल समाधान प्रदान करती है। यह न केवल उपकरणों की बुद्धिमान स्तर को बढ़ा सकती है, बल्कि उपयोगकर्ताओं को अधिक समृद्ध और सुविधाजनक बुद्धिमान अनुभव भी प्रदान कर सकती है। तकनीक के निरंतर विकास और अनुकूलन के साथ, हमें विश्वास है कि T-MAC एज बुद्धिमत्ता क्षेत्र में एक महत्वपूर्ण भूमिका निभाएगा।
ओपन-सोर्स पता: https://github.com/microsoft/T-MAC
पेपर पता: https://www.arxiv.org/pdf/2407.00088