RWKV-6 विशेषज्ञों का मिश्रण
RWKV परिवार का सबसे बड़ा मॉडल, जो दक्षता बढ़ाने के लिए MoE तकनीक का उपयोग करता है।
सामान्य उत्पादप्रोग्रामिंगमशीन लर्निंगMoE
फ्लॉक ऑफ़ फ़िंचेज़ 37B-A11B v0.1 RWKV परिवार का नवीनतम सदस्य है, यह एक प्रायोगिक मॉडल है जिसमें 1.1 बिलियन सक्रिय पैरामीटर हैं। हालाँकि इसे केवल 109 अरब टोकन पर प्रशिक्षित किया गया है, लेकिन सामान्य बेंचमार्क परीक्षणों में इसके स्कोर हाल ही में जारी किए गए फ़िंच 14B मॉडल के बराबर हैं। इस मॉडल में कुशल विरल मिश्रित विशेषज्ञ (MoE) विधि का उपयोग किया गया है, जो किसी भी दिए गए टोकन पर केवल कुछ पैरामीटर को सक्रिय करती है, जिससे प्रशिक्षण और अनुमान के दौरान समय और संगणना संसाधनों की बचत होती है। हालाँकि इस आर्किटेक्चर विकल्प से अधिक VRAM उपयोग होता है, लेकिन हमारे दृष्टिकोण से, अधिक क्षमता वाले मॉडल को कम लागत पर प्रशिक्षित और चलाना बहुत ही मूल्यवान है।
RWKV-6 विशेषज्ञों का मिश्रण नवीनतम ट्रैफ़िक स्थिति
मासिक कुल विज़िट
179
बाउंस दर
26.72%
प्रति विज़िट औसत पृष्ठ
3.0
औसत विज़िट अवधि
00:03:45