युआनजियांग ने MoE ओपन-सोर्स बड़े मॉडल XVERSE-MoE-A36B जारी किया, सक्रियण पैरामीटर 36B तक पहुंच गया

AIbase基地

द्वारा प्रकाशितAI समाचार · 3 मिनट पढ़ें · Sep 13, 2024

115

深圳元象信息科技有限公司 हाल ही में घोषणा की है कि कंपनी ने चीन का सबसे बड़ा Mixture of Experts (MoE) ओपन-सोर्स बड़े मॉडल - XVERSE-MoE-A36B सफलतापूर्वक जारी किया है। इस मॉडल का विमोचन चीन के AI क्षेत्र में एक बड़ी प्रगति का प्रतीक है, जो देशी ओपन-सोर्स तकनीक को अंतरराष्ट्रीय स्तर पर अग्रणी बनाता है।

XVERSE-MoE-A36B मॉडल में 255B का कुल पैरामीटर और 36B का सक्रिय पैरामीटर है, जिसकी प्रदर्शन क्षमता 100B पैरामीटर से अधिक के बड़े मॉडल के बराबर है, जिससे प्रदर्शन में एक नई छलांग संभव हुई है। इस मॉडल के प्रशिक्षण समय में 30% की कमी आई है, और अनुमानित प्रदर्शन में 100% की वृद्धि हुई है, जिससे प्रति टोकन की लागत में बड़ी कमी आई है, जिससे AI अनुप्रयोगों की कम लागत में तैनाती संभव हो गई है।

微信截图_20240913110614.png

元象XVERSE की "उच्च प्रदर्शन पारिवारिक पैकेज" श्रृंखला के मॉडल पूरी तरह से ओपन-सोर्स हैं, जो व्यावसायिक उपयोग के लिए बिना किसी शर्त के मुफ्त में उपलब्ध हैं, जिससे कई छोटे और मध्यम उद्यमों, शोधकर्ताओं और डेवलपर्स को अधिक विकल्प मिलते हैं। MoE आर्किटेक्चर कई विशिष्ट क्षेत्रों के विशेषज्ञ मॉडलों को संयोजित करके पारंपरिक विस्तार नियमों की सीमाओं को तोड़ता है, मॉडल के आकार को बढ़ाने के साथ-साथ प्रदर्शन को अधिकतम बनाए रखते हुए, प्रशिक्षण और अनुमान के गणना लागत को कम करता है।

कई प्राधिकृत परीक्षणों में, 元象 MoE का प्रदर्शन कई समान मॉडल से काफी बेहतर रहा है, जिसमें देश में 100 अरब MoE मॉडल Skywork-MoE, पारंपरिक MoE का प्रमुख Mixtral-8x22B, और 3140 अरब पैरामीटर का ओपन-सोर्स MoE मॉडल Grok-1-A86B शामिल हैं।

बड़े मॉडल को मुफ्त में डाउनलोड करें

Hugging Face: https://huggingface.co/xverse/XVERSE-MoE-A36B
魔搭: https://modelscope.cn/models/xverse/XVERSE-MoE-A36B
Github: https://github.com/xverse-ai/XVERSE-MoE-A36B
संपर्क: opensource@xverse.cn
वेबसाइट: chat.xverse.cn

बड़े मॉडल की दक्षता में जबरदस्त बढ़ोतरी: बाइट्स COMET तकनीक ओपन सोर्स, 1.7 गुना तेज़

बाइटडांस के डौबाओ बड़े मॉडल टीम ने हाल ही में घोषणा की है कि उन्होंने मिश्रित विशेषज्ञ मॉडल (MoE) आर्किटेक्चर की प्रमुख बाधाओं को सफलतापूर्वक दूर कर लिया है, और COMET नामक एक महत्वपूर्ण अनुकूलन तकनीक को ओपन सोर्स किया है। इस तकनीक ने बड़े मॉडल की प्रशिक्षण दक्षता में उल्लेखनीय वृद्धि की है, जिससे 1.7 गुना तक की दक्षता में बढ़ोतरी हुई है, और प्रशिक्षण लागत में 40% की कमी आई है। चित्र स्रोत टिप्पणी: चित्र AI द्वारा उत्पन्न किया गया है, चित्र अधिकार सेवा प्रदाता Midjourney। बताया गया है कि COMET तकनीक का उपयोग बाइटडांस के हजारों कार्ड वाले क्लस्टर प्रशिक्षण में किया जा चुका है, जिससे लाखों GP की बचत हुई है।

डीपसीक ओपन सोर्स वीक दूसरा दिन: MoE मॉडल के लिए पहला ओपन सोर्स EP संचार पुस्तकालय

डीपसीक ने ओपन सोर्स वीक के दूसरे दिन का उत्पाद जारी किया, जो MoE मॉडल के लिए पहला ओपन सोर्स EP संचार पुस्तकालय है, जो मिश्रित विशेषज्ञ मॉडल प्रशिक्षण और अनुमान के लिए पूर्ण-स्टैक अनुकूलन का समर्थन करता है। डीपईपी एक कुशल संचार पुस्तकालय है जो विशेष रूप से मिश्रित विशेषज्ञ (MoE) और विशेषज्ञ समानांतर (EP) के लिए डिज़ाइन किया गया है। इसका उद्देश्य उच्च थ्रूपुट और कम विलंबता वाला कई-से-कई GPU कोर प्रदान करना है, जिसे आमतौर पर MoE शेड्यूलिंग और संयोजन के रूप में जाना जाता है। डीपईपी न केवल FP8 जैसे कम-परिशुद्धता संचालन का समर्थन करता है, बल्कि डीपसीक-V3 शोध पत्र के साथ भी एकीकृत होता है।

AI समाचार

युआनजियांग ने MoE ओपन-सोर्स बड़े मॉडल XVERSE-MoE-A36B जारी किया, सक्रियण पैरामीटर 36B तक पहुंच गया

AIbase基地

संबंधित AI समाचार अनुशंसाएँ

बड़े मॉडल की दक्षता में जबरदस्त बढ़ोतरी: बाइट्स COMET तकनीक ओपन सोर्स, 1.7 गुना तेज़

टोंगयी ऐप का पहला क़्वेन क्यूडब्ल्यूक्यू-32बी बुद्धिमान एआई अनुभव लगातार अपग्रेड हो रहा है

ली काईफू: AI युग में हर ऐप इंसान से ज़्यादा होशियार होगा

डीपसीक ओपन सोर्स वीक दूसरा दिन: MoE मॉडल के लिए पहला ओपन सोर्स EP संचार पुस्तकालय