गहन गणना के क्षेत्र में एक और शक्तिशाली उपकरण! मूर थ्रेड ने आज एक महत्वपूर्ण घोषणा की है, जिसमें MT-MegatronLM और MT-TransformerEngine दो प्रमुख AI ढाँचों को आधिकारिक तौर पर ओपन सोर्स किया गया है। यह कदम घरेलू कम्प्यूटिंग अवसंरचना को मजबूत करेगा। ये दोनों ढाँचे FP8 मिश्रित प्रशिक्षण रणनीति और उच्च-प्रदर्शन ऑपरेटर लाइब्रेरी के गहन एकीकरण के माध्यम से, घरेलू पूर्ण-कार्यशील GPU पर मिश्रित समानांतर प्रशिक्षण और अनुमान को सफलतापूर्वक प्राप्त करते हैं, जिससे बड़े मॉडल प्रशिक्षण की दक्षता और स्थिरता में काफी सुधार होता है।
मूर थ्रेड द्वारा इस बार ओपन सोर्स किया गया MT-MegatronLM ढाँचा पूर्ण-कार्यशील GPU के लिए डिज़ाइन किया गया है, जो घने मॉडल, बहु-मोडल मॉडल और MoE (मिश्रित विशेषज्ञ) मॉडल के कुशल प्रशिक्षण का समर्थन करता है, जो वर्तमान AI क्षेत्र की विविध प्रशिक्षण आवश्यकताओं को पूरा करता है। और MT-TransformerEngine ट्रांसफॉर्मर मॉडल के प्रशिक्षण और अनुमान अनुकूलन पर केंद्रित है, ऑपरेटर फ्यूजन, समानांतर त्वरण रणनीतियों आदि तकनीकों के माध्यम से, मूर थ्रेड के पूर्ण-कार्यशील GPU की उच्च-घनत्व गणना क्षमता को प्रभावी ढंग से मुक्त करता है, और मेमोरी बाउंड ऑपरेटरों की दक्षता में उल्लेखनीय रूप से सुधार करता है।
इन दोनों ढाँचों की तकनीकी सफलता मुख्य रूप से हार्डवेयर अनुकूलन और एल्गोरिथम नवाचार के गहन समन्वय में निहित है। सबसे पहले, वे विभिन्न प्रकार के मॉडलों के मिश्रित समानांतर प्रशिक्षण का समर्थन करते हैं, विभिन्न मॉडल आर्किटेक्चर के जटिल गणना परिदृश्यों से लचीले ढंग से निपट सकते हैं; दूसरा, मूर थ्रेड GPU द्वारा मूल रूप से समर्थित FP8 मिश्रित-सटीकता प्रशिक्षण रणनीति के संयोजन से, प्रशिक्षण दक्षता में प्रभावी रूप से सुधार होता है; तीसरा, उच्च-प्रदर्शन ऑपरेटर लाइब्रेरी muDNN और संचार लाइब्रेरी MCCL के गहन एकीकरण के माध्यम से, गणना-गहन कार्यों और बहु-कार्ड सहयोग के संचार ओवरहेड को व्यवस्थित रूप से अनुकूलित किया जाता है; साथ ही, ओपन सोर्स Simumax लाइब्रेरी के संयोजन से, समानांतर रणनीति खोज स्वचालित रूप से की जा सकती है, और विभिन्न मॉडलों और त्वरण वातावरण के लिए समानांतर प्रशिक्षण प्रदर्शन को अधिकतम किया जा सकता है; इसके अलावा, ढाँचे में अंतर्निहित रिवाइंड अपवाद पुनर्प्राप्ति तंत्र स्वचालित रूप से नवीनतम स्थिर नोड पर वापस जा सकता है और प्रशिक्षण जारी रख सकता है, जिससे बड़े पैमाने पर प्रशिक्षण की स्थिरता में काफी सुधार होता है; अंत में, दो ढाँचे GPU के मुख्यधारा के पारिस्थितिकी तंत्र के साथ संगत हैं, जो न केवल मौजूदा पारिस्थितिकी तंत्र के सहज प्रवासन की गारंटी देता है, बल्कि डेवलपर्स को अपना AI तकनीकी स्टैक बनाने के लिए बुनियादी समर्थन भी प्रदान करता है।
वास्तविक अनुप्रयोगों में, इन दोनों ढाँचों का प्रदर्शन प्रभावशाली है। पूर्ण-कार्यशील GPU क्लस्टर पर, Llama38B मॉडल के प्रशिक्षण कार्य में FP8 तकनीक का उपयोग करके, लगभग बिना नुकसान के, MFU (मॉडल थ्रूपुट उपयोग दर) 90% से अधिक तक पहुँच सकती है, जो मूल प्रशिक्षण गति की तुलना में 28% की वृद्धि है। इसके अलावा, मूर थ्रेड ने DeepSeek समानांतर एल्गोरिथम DualPipe के कुशल समर्थन को गहराई से एकीकृत और ओपन सोर्स किया है, MT-DualPipe MT-Megatron ढाँचे और MT-TransformerEngine ढाँचे में पूरी तरह से एकीकृत होने के बाद, DeepSeek V3 प्रशिक्षण प्रक्रिया की पूर्ण पुनरावृत्ति को सफलतापूर्वक प्राप्त किया है, MLA, MTP और कई विशेषज्ञ संतुलन रणनीतियों का समर्थन करता है। कई ट्रांसफॉर्मर ऑपरेटर फ्यूजन तकनीकों के माध्यम से, ये ढाँचे मेमोरी बैंडविड्थ उपयोग दर में उल्लेखनीय रूप से सुधार करते हैं, मेमोरी बाउंड बाधाओं को प्रभावी ढंग से कम करते हैं, और घरेलू GPU की हार्डवेयर क्षमता को और मुक्त करते हैं।
मूर थ्रेड ने कहा कि वे इन दोनों ढाँचों का निरंतर अनुकूलन करेंगे, और कई नए कार्यों को शुरू करने की योजना बना रहे हैं: जिसमें Dual Pipe/ZeroBubble समानांतर रणनीति शामिल है ताकि बुलबुला दर को और कम किया जा सके, समानांतर प्रशिक्षण दक्षता में सुधार किया जा सके; प्रशिक्षण प्रदर्शन और स्थिरता में सुधार के लिए कई अनूठी FP8 अनुकूलन रणनीतियाँ; प्रशिक्षण प्रक्रिया में त्रुटि सहनशीलता और दक्षता में सुधार के लिए अतुल्यकालिक चेकपॉइंट रणनीति; गणना और वीडियो मेमोरी खर्च को कम करने और प्रशिक्षण गति में सुधार के लिए अनुकूलित पुनर्गणना रणनीति; प्रशिक्षण प्रक्रिया में त्रुटि सहनशीलता को बढ़ाने के लिए अनूठी त्रुटि-सहिष्णु प्रशिक्षण एल्गोरिथम; और मूर थ्रेड FlashMLA और DeepGemm लाइब्रेरी को एकीकृत करने के लिए मूर थ्रेड GPU की कंप्यूटिंग शक्ति और FP8 कंप्यूटिंग क्षमता को और मुक्त करने के लिए, कंप्यूटिंग प्रदर्शन और दक्षता में व्यापक रूप से सुधार किया जा सकता है।
यह तकनीकी सफलताओं और ओपन सोर्सिंग उपायों की श्रृंखला न केवल AI कंप्यूटिंग शक्ति क्षेत्र में मूर थ्रेड की ताकत को दर्शाती है, बल्कि घरेलू AI अवसंरचना के विकास के लिए नई संभावनाएँ भी खोलती है, आइए हम AI मॉडल प्रशिक्षण क्षेत्र में इसके और अधिक सफलताओं की प्रतीक्षा करें।