बाइटडांस के अंतर्गत डौबाओ बड़े मॉडल टीम ने हाल ही में घोषणा की है कि उसने मिश्रित विशेषज्ञ मॉडल (MoE) संरचना की महत्वपूर्ण बाधाओं को सफलतापूर्वक पार कर लिया है, और COMET नामक एक महत्वपूर्ण अनुकूलन तकनीक को ओपन सोर्स किया है। इस तकनीक ने बड़े मॉडल की प्रशिक्षण दक्षता में उल्लेखनीय रूप से वृद्धि की है, 1.7 गुना तक की दक्षता में वृद्धि हासिल की है, और प्रशिक्षण लागत को 40% तक प्रभावी ढंग से कम किया है।
चित्र स्रोत टिप्पणी: यह चित्र AI द्वारा उत्पन्न किया गया है, चित्र अधिकार सेवा प्रदाता Midjourney है।
जानकारी के अनुसार, COMET तकनीक का उपयोग बाइटडांस के हजारों कार्ड वाले क्लस्टर प्रशिक्षण में व्यावहारिक रूप से किया गया है, जिससे लाखों GPU घंटों की प्रशिक्षण गणना क्षमता की बचत हुई है। हाल ही में DeepSeek द्वारा ओपन सोर्स किए गए DualPipe जैसे MoE अनुकूलन योजनाओं की तुलना में, COMET में अधिक मजबूत संगतता और सुविधा है, और इसे मौजूदा MoE प्रशिक्षण ढांचे में सीधे प्लग-इन के रूप में जोड़ा जा सकता है, उद्योग में मुख्यधारा के बड़े मॉडल का समर्थन करता है, और प्रशिक्षण ढांचे में आक्रामक संशोधन की आवश्यकता नहीं है।
तकनीकी आंकड़े दर्शाते हैं कि COMET को शामिल करने के बाद, एकल MoE परत 1.96 गुना त्वरण प्राप्त कर सकती है, एंड-टू-एंड औसत दक्षता में 1.71 गुना वृद्धि हुई है, और विभिन्न समानांतर रणनीतियों, इनपुट पैमाने और हार्डवेयर वातावरण में स्थिर प्रदर्शन दिखाया गया है। और भी ध्यान देने योग्य बात यह है कि COMET को DeepSeek के DualPipe योजना के साथ संयुक्त रूप से उपयोग किया जा सकता है, जिससे मॉडल प्रशिक्षण लागत को और अधिक कम करने की उम्मीद है।
इस तकनीक का ओपन सोर्स होना, निस्संदेह बड़े मॉडल क्षेत्र में एक नया सफलता है, जिससे बड़े मॉडल के अनुसंधान और अनुप्रयोग को तेज करने की उम्मीद है।
शोध पत्र का पता:https://arxiv.org/pdf/2502.19811
ओपन सोर्स पता:https://github.com/bytedance/flux?continueFlag=c1d74dd2912ab3909a1a27fe4f5cf519