आज के बड़े मॉडल (Large Language Model, LLM) के तेजी से विकास के समय में, मॉडल के प्रशिक्षण और अनुमान लागत तेजी से अनुसंधान और अनुप्रयोग का ध्यान केंद्रित बनते जा रहे हैं। हाल ही में, Tencent混元 टीम ने एक महत्वपूर्ण अध्ययन जारी किया, जो निम्न बिट फ्लोटिंग-पॉइंट क्वांटाइज़ेशन प्रशिक्षण के "स्केलिंग लॉज़" का गहराई से अन्वेषण करता है, अर्थात् फ्लोटिंग-पॉइंट क्वांटाइज़ेशन प्रशिक्षण के पैमाने के नियम। इस अध्ययन का मुख्य उद्देश्य मॉडल की सटीकता को कम करके यह पता लगाना है कि कैसे प्रदर्शन को खोए बिना, गणना और भंडारण लागत को महत्वपूर्ण रूप से कम किया जा सकता है।

image.png

अनुसंधान टीम ने 366 विभिन्न पैरामीटर आकार और सटीकता के फ्लोटिंग-पॉइंट क्वांटाइज़ेशन प्रशिक्षण का संचालन किया, और प्रशिक्षण के प्रभाव को प्रभावित करने वाले विभिन्न कारकों का प्रणालीगत विश्लेषण किया, जिसमें मॉडल का आकार (N), प्रशिक्षण डेटा की मात्रा (D), एक्सपोनेंट बिट (E), मैंटिसा बिट (M) और क्वांटाइज़ेशन ग्रैन्युलैरिटी (B) शामिल हैं। इन प्रयोगों के माध्यम से, शोधकर्ताओं ने एक एकीकृत स्केलिंग लॉ निकाला, जो विभिन्न सटीकताओं के तहत प्रशिक्षण डेटा और मॉडल पैरामीटर को प्रभावी ढंग से कॉन्फ़िगर करने का तरीका बताता है, ताकि सर्वोत्तम प्रशिक्षण परिणाम प्राप्त हो सके।

image.png

सबसे महत्वपूर्ण बात यह है कि अध्ययन में कहा गया है कि किसी भी निम्न सटीकता के फ्लोटिंग-पॉइंट क्वांटाइज़ेशन प्रशिक्षण में एक "सीमित प्रभाव" होता है, अर्थात् एक विशिष्ट डेटा मात्रा पर, मॉडल का प्रदर्शन सबसे अच्छा होगा, इस डेटा मात्रा से अधिक होने पर प्रदर्शन में कमी आ सकती है। इसके अलावा, अध्ययन में यह भी पाया गया कि सिद्धांत में सर्वोत्तम लागत-प्रदर्शन अनुपात का फ्लोटिंग-पॉइंट क्वांटाइज़ेशन सटीकता 4 से 8 बिट के बीच होनी चाहिए, जो कुशल LLM के विकास के लिए महत्वपूर्ण मार्गदर्शक है।

image.png

यह अध्ययन न केवल फ्लोटिंग-पॉइंट क्वांटाइज़ेशन प्रशिक्षण क्षेत्र में एक अंतर को भरता है, बल्कि भविष्य के हार्डवेयर निर्माताओं के लिए संदर्भ भी प्रदान करता है, जिससे उन्हें विभिन्न सटीकताओं के तहत फ्लोटिंग ऑपरेशन क्षमता को अनुकूलित करने में मदद मिलती है। अंततः, यह अध्ययन बड़े मॉडल प्रशिक्षण के अभ्यास के लिए एक स्पष्ट दिशा प्रदान करता है, यह सुनिश्चित करते हुए कि सीमित संसाधनों के बावजूद, प्रभावी प्रशिक्षण परिणाम प्राप्त किया जा सके।

पत्र का पता: https://arxiv.org/pdf/2501.02423