हाल ही में, चींटी समूह की लिंग टीम ने प्रीप्रिंट आर्क्सिव प्लेटफॉर्म पर एक तकनीकी पेपर प्रकाशित किया जिसका शीर्षक है "हर FLOP मायने रखता है: 3000 अरब पैरामीटर मिश्रित विशेषज्ञ LING बड़े मॉडल को उच्च-अंत GPU के बिना स्केल करना"। इस पेपर में उन्होंने अपने द्वारा विकसित दो नए बड़े भाषा मॉडल पेश किए हैं: लिंग-लाइट और लिंग-प्लस। इन दोनों मॉडलों को कम प्रदर्शन वाले हार्डवेयर पर कुशल प्रशिक्षण के लिए डिज़ाइन किया गया है, जिससे लागत में उल्लेखनीय कमी आई है।
लिंग-लाइट में 16.8 अरब पैरामीटर हैं, जिनमें से 2.75 अरब सक्रिय पैरामीटर हैं। दूसरी ओर, उन्नत संस्करण का आधार मॉडल में 290 अरब पैरामीटर हैं, जिनमें से 28.8 अरब सक्रिय पैरामीटर हैं। दोनों मॉडल उद्योग में अग्रणी प्रदर्शन करते हैं, खासकर उन्नत संस्करण, जिसका 3000 अरब पैरामीटर MoE मॉडल घरेलू GPU वाले कम प्रदर्शन वाले उपकरणों पर प्रशिक्षित होने पर उच्च-अंत NVIDIA चिप मॉडल के बराबर प्रदर्शन करता है।
चित्र विवरण: यह चित्र AI द्वारा उत्पन्न किया गया है, और छवि अधिकार सेवा प्रदाता Midjourney है।
आमतौर पर, MoE मॉडल के प्रशिक्षण के लिए महंगे उच्च-प्रदर्शन वाले GPU जैसे NVIDIA H100 और H800 की आवश्यकता होती है, जो न केवल महंगे होते हैं बल्कि चिप की कमी से भी प्रभावित होते हैं, जिससे संसाधनों की कमी वाले वातावरण में उनका उपयोग सीमित हो जाता है। इसलिए, चींटी समूह की लिंग टीम ने एक नया लक्ष्य निर्धारित किया - "उच्च-अंत GPU का उपयोग किए बिना" मॉडल को स्केल करना, जिससे संसाधनों और बजट की बाधाओं को तोड़ा जा सके। उनकी नवीन प्रशिक्षण रणनीतियों में गतिशील पैरामीटर आवंटन, मिश्रित परिशुद्धता शेड्यूलिंग और उन्नत प्रशिक्षण अपवाद हैंडलिंग तंत्र शामिल हैं। इन रणनीतियों ने रुकावट प्रतिक्रिया समय को प्रभावी ढंग से कम किया है और मॉडल मूल्यांकन प्रक्रिया को अनुकूलित किया है, जिससे सत्यापन चक्र में 50% से अधिक की कमी आई है।
प्रयोगों में, लिंग टीम ने लिंग-प्लस के पूर्व-प्रशिक्षण के लिए 9 ट्रिलियन टोकन का उपयोग किया। परिणामों से पता चला है कि उच्च-प्रदर्शन वाले हार्डवेयर कॉन्फ़िगरेशन का उपयोग करके 1 ट्रिलियन टोकन के प्रशिक्षण की लागत लगभग 6.35 मिलियन युआन है, जबकि चींटी की अनुकूलित विधि का उपयोग करने से कम विनिर्देशों वाले हार्डवेयर पर प्रशिक्षण की लागत लगभग 5.08 मिलियन युआन तक कम हो गई, जिससे लगभग 20% की बचत हुई। साथ ही, प्रदर्शन अली टोंगयी Qwen2.5-72B-Instruct और DeepSeek-V2.5-1210-Chat के बराबर है।
यदि इस तकनीकी उपलब्धि का व्यापक रूप से उपयोग किया जाता है, तो यह घरेलू बड़े मॉडल के लिए अधिक किफायती और कुशल समाधान प्रदान करेगा, NVIDIA चिप्स पर निर्भरता को कम करेगा और भविष्य के कृत्रिम बुद्धिमत्ता विकास के लिए नए रास्ते खोलेगा।