DeepSeek-V2-Chat
एक कुशल और किफायती भाषा मॉडल, जिसमें शक्तिशाली विशेषज्ञ मिश्रण विशेषताएँ हैं।
सामान्य उत्पादप्रोग्रामिंगभाषा मॉडलमिश्रित विशेषज्ञ
DeepSeek-V2 एक 236B पैरामीटर वाला मिश्रित विशेषज्ञ (MoE) भाषा मॉडल है, जो किफायती प्रशिक्षण और कुशल अनुमान बनाए रखते हुए, प्रत्येक टोकन के 21B पैरामीटर को सक्रिय करता है। पिछले DeepSeek 67B की तुलना में, DeepSeek-V2 प्रदर्शन में बेहतर है, साथ ही 42.5% प्रशिक्षण लागत की बचत करता है, 93.3% KV कैश कम करता है, और अधिकतम उत्पादन थ्रूपुट को 5.76 गुना तक बढ़ाता है। यह मॉडल 8.1 ट्रिलियन टोकन के उच्च-गुणवत्ता वाले कॉर्पस पर पूर्व-प्रशिक्षित किया गया है, और पर्यवेक्षित ठीक-ठीक ट्यूनिंग (SFT) और प्रबलित अधिगम (RL) के माध्यम से और बेहतर किया गया है, जिससे यह मानक बेंचमार्क और खुले उत्पादन मूल्यांकन में उत्कृष्ट प्रदर्शन करता है।
DeepSeek-V2-Chat नवीनतम ट्रैफ़िक स्थिति
मासिक कुल विज़िट
29742941
बाउंस दर
44.20%
प्रति विज़िट औसत पृष्ठ
5.9
औसत विज़िट अवधि
00:04:44