"बुद्धिमान" ऑप्टिमाइज़र C-AdamW: एक पंक्ति कोड से बड़े मॉडल के प्रशिक्षण की गति 1.47 गुना बढ़ाएं!

AIbase基地

द्वारा प्रकाशितAI समाचार · 6 मिनट पढ़ें · Nov 27, 2024

221

AI की दुनिया में, "बड़ी मेहनत से चमत्कार" एक सुनहरे नियम की तरह लगने लगा है। मॉडल जितना बड़ा, डेटा जितना अधिक, और कंप्यूटिंग शक्ति जितनी मजबूत, ऐसा लगता है कि हम बुद्धिमत्ता के पवित्र ग्रंथ के करीब पहुँच सकते हैं। हालाँकि, इस तेज़ी के पीछे, विशाल लागत और ऊर्जा खपत का दबाव छिपा हुआ है।

AI प्रशिक्षण को अधिक कुशल बनाने के लिए, वैज्ञानिक अधिक शक्तिशाली ऑप्टिमाइज़र की खोज में लगे हुए हैं, जैसे एक कोच, जो मॉडल के पैरामीटर को लगातार अनुकूलित करने में मदद करता है, अंततः सर्वश्रेष्ठ स्थिति तक पहुँचता है। AdamW, जो Transformer प्री-ट्रेनिंग का डिफ़ॉल्ट ऑप्टिमाइज़र है, वर्षों से उद्योग का मानक रहा है। हालाँकि, बढ़ते मॉडल आकार के सामने, AdamW भी अब असमर्थ दिखने लगा है।

क्या कोई ऐसा तरीका नहीं है, जो प्रशिक्षण की गति को बढ़ा सके और ऊर्जा खपत को कम कर सके? चिंता न करें, एक पूरी चीनी टीम अपने "गुप्त हथियार" C-AdamW के साथ आ रही है!

C-AdamW का पूरा नाम Cautious AdamW है, जिसका हिंदी में अर्थ है "सावधान AdamW", क्या यह सुनने में "ध्यानशील" नहीं लगता? बिल्कुल सही, C-AdamW का मूल विचार "सोच-समझकर कदम उठाना" है।

कल्पना कीजिए, मॉडल के पैरामीटर एक समूह की तरह हैं जो हमेशा इधर-उधर दौड़ना चाहते हैं। AdamW एक जिम्मेदार शिक्षक की तरह है, जो उन्हें सही दिशा में आगे बढ़ने में मदद करता है। लेकिन कभी-कभी, बच्चे बहुत उत्साहित हो जाते हैं और गलत दिशा में दौड़ते हैं, जिससे समय और ऊर्जा बर्बाद होती है।

इस समय, C-AdamW एक बुद्धिमान वृद्ध की तरह है, जो "सत्य की दृष्टि" के साथ अपडेट की दिशा को सटीक रूप से पहचान सकता है। यदि दिशा गलत है, तो C-AdamW तुरंत रोक देता है, जिससे मॉडल गलत रास्ते पर और अधिक नहीं बढ़ता।

यह "सावधानी" की रणनीति सुनिश्चित करती है कि प्रत्येक अपडेट प्रभावी रूप से हानि फ़ंक्शन को कम कर सके, जिससे मॉडल की संकुचन गति तेज हो जाती है। प्रयोगात्मक परिणामों से पता चलता है कि C-AdamW Llama और MAE प्री-ट्रेनिंग में प्रशिक्षण गति को 1.47 गुना बढ़ा देता है!

और सबसे महत्वपूर्ण बात यह है कि C-AdamW में लगभग कोई अतिरिक्त गणनात्मक लागत नहीं है, केवल मौजूदा कोड में एक साधारण परिवर्तन करना होता है। इसका मतलब है कि डेवलपर्स आसानी से C-AdamW को विभिन्न मॉडल प्रशिक्षण में लागू कर सकते हैं और "गति और उत्साह" का आनंद ले सकते हैं!

C-AdamW की "ध्यानशीलता" यह है कि यह Adam के हैमिल्टन फ़ंक्शन को बनाए रखता है और लियापुनोव विश्लेषण के तहत संकुचन की गारंटी को नष्ट नहीं करता। इसका मतलब है कि C-AdamW न केवल तेज है, बल्कि इसकी स्थिरता भी सुनिश्चित की गई है, जिससे प्रशिक्षण में दुर्घटनाएं नहीं होती हैं।

बेशक, "ध्यानशीलता" का मतलब "कोई प्रगति नहीं" नहीं है। शोध टीम ने कहा है कि वे अधिक समृद्ध ϕ फ़ंक्शन का अन्वेषण जारी रखेंगे और प्रदर्शन स्थान में मास्क लागू करेंगे, ताकि C-AdamW के प्रदर्शन को और बढ़ाया जा सके।

यह अनुमान लगाया जा सकता है कि C-AdamW गहरे शिक्षण के क्षेत्र में एक नया प्रिय बन जाएगा, जो बड़े मॉडल प्रशिक्षण में क्रांतिकारी परिवर्तन लाएगा!

पेपर का लिंक: https://arxiv.org/abs/2411.16085

GitHub:

https://github.com/kyleliang919/C-Optim

मूनशॉट ने नया ऑप्टिमाइज़र म्यूऑन लॉन्च किया, जिससे गणना दक्षता में भारी वृद्धि हुई है

हाल ही में, आर्टिफिशियल इंटेलिजेंस के क्षेत्र में एक बार फिर हलचल मची है, मूनशॉट (Moonshot) ने अपने नए ऑप्टिमाइज़र म्यूऑन को ओपन सोर्स किया है, जिससे गणना दक्षता पारंपरिक एडमडब्ल्यू के मुकाबले दोगुनी हो गई है। इस नए ऑप्टिमाइज़र का लॉन्च डीपसीक के लगातार कई कोड बेस ओपन सोर्स करने के साथ हुआ है, जिससे उद्योग में बहुत ध्यान और चर्चा हुई है। म्यूऑन ऑप्टिमाइज़र को शुरू में 2024 में ओपनएआई के शोधकर्ता केलर जॉर्डन ने प्रस्तुत किया था, जो छोटे पैमाने के मॉडल प्रशिक्षण में उत्कृष्ट प्रदर्शन करता है।

चाँद की अंधेरी तरफ UCLA के साथ मिलकर नया Mixture-of-Expert मॉडल लांच, भाषा मॉडल प्रशिक्षण दक्षता को बढ़ाना

कृत्रिम बुद्धिमत्ता के क्षेत्र में, बड़े भाषा मॉडल (LLMs) का प्रशिक्षण तकनीकी प्रगति को बढ़ावा देने के लिए एक महत्वपूर्ण दिशा बन गया है। हालाँकि, जैसे-जैसे मॉडल का आकार और डेटा सेट बढ़ता है, पारंपरिक अनुकूलन विधियाँ - विशेष रूप से AdamW - अपनी सीमाएँ प्रकट करने लगती हैं। शोधकर्ताओं को उच्च गणना लागत, अस्थिर प्रशिक्षण जैसी चुनौतियों का सामना करना पड़ता है, जिसमें ग्रेडिएंट का गायब होना या विस्फोट होना, पैरामीटर मैट्रिक्स का असंगत अद्यतन और वितरित वातावरण में उच्च संसाधन आवश्यकताएँ शामिल हैं। इसलिए, इन जटिलताओं का सामना करने के लिए और अधिक प्रभावी और स्थिर अनुकूलन तकनीकों की तत्काल आवश्यकता है।

ली यानहोंग ने DeepSeek पर बात की: कहा कि बड़े मॉडल की लागत हर साल 90% से अधिक कम हो रही है

हाल ही में, विश्व सरकार शिखर सम्मेलन (WGS) यूएई के दुबई में धूमधाम से आयोजित हुआ, जिसने दुनिया भर के विभिन्न क्षेत्रों के वरिष्ठ नेताओं का ध्यान आकर्षित किया। सम्मेलन के दौरान, बaidu के संस्थापक ली यानहोंग ने यूएई के AI मंत्री के साथ गहन संवाद किया, जिसमें AI क्षेत्र के नवीनतम विकास रुझानों पर चर्चा की गई। ली यानहोंग ने संवाद के दौरान विशेष रूप से बaidu की AI इनफरेंस क्षेत्र में नवाचारों का उल्लेख किया - DeepSeek। उन्होंने कहा कि नवाचार केवल AI क्षेत्र या IT उद्योग में सीमित नहीं है, बल्कि यह सभी उद्योगों में व्यापक रूप से मौजूद है, जिसमें अधिकांश नवाचारों का मूल लागत कम करने से निकटता से जुड़ा हुआ है।

जटिल प्रोग्रामिंग को अलविदा: Hugging Face ने पहला रोबोट बेस मॉडल Pi0 जारी किया

Hugging Face ने Physical Intelligence के साथ मिलकर क्रांतिकारी रोबोट बेस मॉडल Pi0 लॉन्च किया है, जो पहला ओपन-सोर्स मॉडल है जो प्राकृतिक भाषा के आदेशों को सीधे रोबोट क्रियाओं में बदल सकता है, और यह रोबोटिक्स के लिए एक नए युग की शुरुआत का प्रतीक है। Pi0 मॉडल को सात विभिन्न रोबोट प्लेटफार्मों पर प्रशिक्षित किया गया है, जिसमें 68 अनूठी कार्यों को समझने की क्षमता है, और यह कपड़े मोड़ने से लेकर मेज साफ करने जैसी जटिल क्रियाएँ करने में सक्षम है। यह मॉडल 50Hz की आवृत्ति पर चिकनी रीयल-टाइम क्रियाओं को उत्पन्न करने के लिए नवोन्मेषी फ्लो मिलान तकनीक का उपयोग करता है।

AI समाचार

"बुद्धिमान" ऑप्टिमाइज़र C-AdamW: एक पंक्ति कोड से बड़े मॉडल के प्रशिक्षण की गति 1.47 गुना बढ़ाएं!

AIbase基地

संबंधित AI समाचार अनुशंसाएँ

मूनशॉट ने नया ऑप्टिमाइज़र म्यूऑन लॉन्च किया, जिससे गणना दक्षता में भारी वृद्धि हुई है

चाँद की अंधेरी तरफ UCLA के साथ मिलकर नया Mixture-of-Expert मॉडल लांच, भाषा मॉडल प्रशिक्षण दक्षता को बढ़ाना

ली यानहोंग ने DeepSeek पर बात की: कहा कि बड़े मॉडल की लागत हर साल 90% से अधिक कम हो रही है

जटिल प्रोग्रामिंग को अलविदा: Hugging Face ने पहला रोबोट बेस मॉडल Pi0 जारी किया