कृत्रिम बुद्धिमत्ता (AI) द्वारा संचालित टेक्स्ट-टू-इमेज (T2I) जनरेटिव मॉडल, जैसे कि DALLE3, Adobe Firefly3 आदि, असाधारण जनरेशन क्षमताओं का प्रदर्शन करते हैं और व्यावहारिक अनुप्रयोगों में उनकी संभावनाएँ अनंत हैं। हालाँकि, इन मॉडलों में आमतौर पर अरबों पैरामीटर होते हैं, जो मेमोरी की अत्यधिक मांग करते हैं, जिससे मोबाइल उपकरणों जैसे संसाधन-सीमित प्लेटफार्मों पर तैनाती में बड़ी चुनौतियाँ आती हैं।

इन चुनौतियों को हल करने के लिए, ByteDance और POSTECH के शोधकर्ताओं ने T2I मॉडलों के लिए अत्यधिक निम्न बिट क्वांटाइजेशन तकनीक का अन्वेषण किया। कई उन्नत मॉडलों में, FLUX.1-dev ने अपनी सार्वजनिक उपलब्धता और उत्कृष्ट प्रदर्शन के कारण शोध का लक्ष्य बना लिया।

शोधकर्ताओं ने FLUX मॉडल में दृश्य परिवर्तक वजन को संकुचित करने के लिए 1.58 बिट क्वांटाइजेशन नामक एक विधि का उपयोग किया, जिससे यह केवल {-1, 0, +1} तीन मानों का उपयोग करता है। यह क्वांटाइजेशन विधि छवि डेटा तक पहुँचने की आवश्यकता के बिना, केवल FLUX.1-dev मॉडल की आत्म-निगरानी पर निर्भर करती है। BitNet b1.58 विधि के विपरीत, यह विधि बड़े भाषा मॉडल को फिर से प्रशिक्षित करने के बजाय T2I मॉडल के लिए एक बाद की प्रशिक्षण क्वांटाइजेशन समाधान के रूप में कार्य करती है।

image.png

इस विधि के माध्यम से, मॉडल की संग्रहण क्षमता 7.7 गुना कम हो गई, क्योंकि 1.58 बिट वजन 2-बिट सिग्नेड इंटीजर में संग्रहित होते हैं, जिससे 16-बिट सटीकता से संकुचन प्राप्त होता है। आगे की推理 दक्षता को बढ़ाने के लिए, शोधकर्ताओं ने निम्न बिट गणना के लिए अनुकूलित एक कस्टम कोर भी विकसित किया। इस कोर ने推理 मेमोरी उपयोग को 5.1 गुना से अधिक कम कर दिया और推理 विलंबता में सुधार किया।

GenEval और T2I Compbench बेंचमार्क परीक्षणों में मूल्यांकन से पता चला है कि 1.58 बिट FLUX ने पूर्ण सटीकता वाले FLUX मॉडल के समान जनरेशन गुणवत्ता को बनाए रखते हुए गणना दक्षता में उल्लेखनीय वृद्धि की है।

विशेष रूप से, शोधकर्ताओं ने FLUX मॉडल के 99.5% दृश्य परिवर्तक पैरामीटर (कुल 11.9 बिलियन) को 1.58 बिट में क्वांटाइज किया, जिससे संग्रहण की आवश्यकता में बड़ी कमी आई।

प्रयोगात्मक परिणाम बताते हैं कि 1.58 बिट FLUX का प्रदर्शन T2I CompBench और GenEval डेटा सेट पर मूल FLUX मॉडल के समान है।推理 गति के मामले में, 1.58 बिट FLUX निम्न प्रदर्शन GPU (जैसे L20 और A10) पर अधिक स्पष्ट सुधार प्रदर्शित करता है।

image.png

कुल मिलाकर, 1.58 बिट FLUX की उपस्थिति उच्च गुणवत्ता वाले T2I मॉडल को मेमोरी और विलंबता सीमित उपकरणों पर व्यावहारिक रूप से तैनात करने के मामले में महत्वपूर्ण प्रगति का प्रतीक है।

हालाँकि 1.58 बिट FLUX में गति सुधार और उच्च रिज़ॉल्यूशन इमेज विवरण रेंडरिंग के मामले में कुछ सीमाएँ हैं, लेकिन मॉडल की दक्षता बढ़ाने और संसाधन खपत को कम करने की इसकी विशाल संभावनाएँ भविष्य के शोध के लिए नए दृष्टिकोण प्रदान करने की उम्मीद करती हैं।

मुख्य सुधार सारांश:

मॉडल संकुचन: मॉडल संग्रहण क्षमता 7.7 गुना कम हुई।

मेमोरी अनुकूलन:推理 मेमोरी उपयोग 5.1 गुना से अधिक कम हुआ।

प्रदर्शन बनाए रखना: GenEval और T2I Compbench बेंचमार्क परीक्षणों में, 1.58 बिट FLUX ने पूर्ण सटीकता वाले FLUX मॉडल के समान प्रदर्शन बनाए रखा।

कोई छवि डेटा की आवश्यकता नहीं: क्वांटाइजेशन प्रक्रिया को किसी भी छवि डेटा तक पहुँचने की आवश्यकता नहीं है, केवल मॉडल की आत्म-निगरानी पर निर्भर करती है।

कस्टम कोर: निम्न बिट गणना के लिए अनुकूलित कस्टम कोर का उपयोग किया गया, जिससे推理 दक्षता में सुधार हुआ।

परियोजना पृष्ठ: https://chenglin-yang.github.io/1.58bit.flux.github.io/

पत्र का पता: https://arxiv.org/pdf/2412.18653

मॉडल का पता: https://huggingface.co/papers/2412.18653