Yuan2.0-M32
उच्च-प्रदर्शन मिश्रित विशेषज्ञ ध्यान रूटिंग भाषा मॉडल
सामान्य उत्पादप्रोग्रामिंगमिश्रित विशेषज्ञध्यान रूटिंग
Yuan2.0-M32 एक 32 विशेषज्ञों वाला मिश्रित विशेषज्ञ (MoE) भाषा मॉडल है, जिसमें से 2 सक्रिय हैं। इसमें एक नए रूटिंग नेटवर्क - ध्यान रूटिंग - को प्रस्तुत किया गया है, जो अधिक कुशल विशेषज्ञ चयन के लिए है, जिससे सटीकता में 3.8% की वृद्धि हुई है। यह मॉडल 2000B टोकन का उपयोग करके शून्य से प्रशिक्षित किया गया है, और इसकी प्रशिक्षण गणना समान पैरामीटर स्केल के घने मॉडल की आवश्यकता वाली गणना का केवल 9.25% है। यह कोडिंग, गणित और विभिन्न पेशेवर क्षेत्रों में प्रतिस्पर्धी प्रदर्शन दिखाता है, केवल 3.7B सक्रिय पैरामीटर का उपयोग करता है, प्रत्येक टोकन के लिए केवल 7.4 GFLOPS की अग्र गणना होती है, जो Llama3-70B की आवश्यकता का केवल 1/19 है। यह MATH और ARC-Challenge बेंचमार्क में Llama3-70B को पार कर गया है, जिसकी सटीकता क्रमशः 55.9% और 95.8% है।
Yuan2.0-M32 नवीनतम ट्रैफ़िक स्थिति
मासिक कुल विज़िट
29742941
बाउंस दर
44.20%
प्रति विज़िट औसत पृष्ठ
5.9
औसत विज़िट अवधि
00:04:44