AI की दुनिया में, "बड़ी मेहनत से चमत्कार" एक सुनहरे नियम की तरह लगने लगा है। मॉडल जितना बड़ा, डेटा जितना अधिक, और कंप्यूटिंग शक्ति जितनी मजबूत, ऐसा लगता है कि हम बुद्धिमत्ता के पवित्र ग्रंथ के करीब पहुँच सकते हैं। हालाँकि, इस तेज़ी के पीछे, विशाल लागत और ऊर्जा खपत का दबाव छिपा हुआ है।

AI प्रशिक्षण को अधिक कुशल बनाने के लिए, वैज्ञानिक अधिक शक्तिशाली ऑप्टिमाइज़र की खोज में लगे हुए हैं, जैसे एक कोच, जो मॉडल के पैरामीटर को लगातार अनुकूलित करने में मदद करता है, अंततः सर्वश्रेष्ठ स्थिति तक पहुँचता है। AdamW, जो Transformer प्री-ट्रेनिंग का डिफ़ॉल्ट ऑप्टिमाइज़र है, वर्षों से उद्योग का मानक रहा है। हालाँकि, बढ़ते मॉडल आकार के सामने, AdamW भी अब असमर्थ दिखने लगा है।

image.png

क्या कोई ऐसा तरीका नहीं है, जो प्रशिक्षण की गति को बढ़ा सके और ऊर्जा खपत को कम कर सके? चिंता न करें, एक पूरी चीनी टीम अपने "गुप्त हथियार" C-AdamW के साथ आ रही है!

C-AdamW का पूरा नाम Cautious AdamW है, जिसका हिंदी में अर्थ है "सावधान AdamW", क्या यह सुनने में "ध्यानशील" नहीं लगता? बिल्कुल सही, C-AdamW का मूल विचार "सोच-समझकर कदम उठाना" है।

image.png

कल्पना कीजिए, मॉडल के पैरामीटर एक समूह की तरह हैं जो हमेशा इधर-उधर दौड़ना चाहते हैं। AdamW एक जिम्मेदार शिक्षक की तरह है, जो उन्हें सही दिशा में आगे बढ़ने में मदद करता है। लेकिन कभी-कभी, बच्चे बहुत उत्साहित हो जाते हैं और गलत दिशा में दौड़ते हैं, जिससे समय और ऊर्जा बर्बाद होती है।

इस समय, C-AdamW एक बुद्धिमान वृद्ध की तरह है, जो "सत्य की दृष्टि" के साथ अपडेट की दिशा को सटीक रूप से पहचान सकता है। यदि दिशा गलत है, तो C-AdamW तुरंत रोक देता है, जिससे मॉडल गलत रास्ते पर और अधिक नहीं बढ़ता।

image.png

यह "सावधानी" की रणनीति सुनिश्चित करती है कि प्रत्येक अपडेट प्रभावी रूप से हानि फ़ंक्शन को कम कर सके, जिससे मॉडल की संकुचन गति तेज हो जाती है। प्रयोगात्मक परिणामों से पता चलता है कि C-AdamW Llama और MAE प्री-ट्रेनिंग में प्रशिक्षण गति को 1.47 गुना बढ़ा देता है!

और सबसे महत्वपूर्ण बात यह है कि C-AdamW में लगभग कोई अतिरिक्त गणनात्मक लागत नहीं है, केवल मौजूदा कोड में एक साधारण परिवर्तन करना होता है। इसका मतलब है कि डेवलपर्स आसानी से C-AdamW को विभिन्न मॉडल प्रशिक्षण में लागू कर सकते हैं और "गति और उत्साह" का आनंद ले सकते हैं!

C-AdamW की "ध्यानशीलता" यह है कि यह Adam के हैमिल्टन फ़ंक्शन को बनाए रखता है और लियापुनोव विश्लेषण के तहत संकुचन की गारंटी को नष्ट नहीं करता। इसका मतलब है कि C-AdamW न केवल तेज है, बल्कि इसकी स्थिरता भी सुनिश्चित की गई है, जिससे प्रशिक्षण में दुर्घटनाएं नहीं होती हैं।

बेशक, "ध्यानशीलता" का मतलब "कोई प्रगति नहीं" नहीं है। शोध टीम ने कहा है कि वे अधिक समृद्ध ϕ फ़ंक्शन का अन्वेषण जारी रखेंगे और प्रदर्शन स्थान में मास्क लागू करेंगे, ताकि C-AdamW के प्रदर्शन को और बढ़ाया जा सके।

यह अनुमान लगाया जा सकता है कि C-AdamW गहरे शिक्षण के क्षेत्र में एक नया प्रिय बन जाएगा, जो बड़े मॉडल प्रशिक्षण में क्रांतिकारी परिवर्तन लाएगा!

पेपर का लिंक: https://arxiv.org/abs/2411.16085

GitHub:

https://github.com/kyleliang919/C-Optim