DeepSeek-V2-Chat

एक कुशल और किफायती भाषा मॉडल, जिसमें शक्तिशाली विशेषज्ञ मिश्रण विशेषताएँ हैं।

सामान्य उत्पादप्रोग्रामिंगभाषा मॉडलमिश्रित विशेषज्ञ
DeepSeek-V2 एक 236B पैरामीटर वाला मिश्रित विशेषज्ञ (MoE) भाषा मॉडल है, जो किफायती प्रशिक्षण और कुशल अनुमान बनाए रखते हुए, प्रत्येक टोकन के 21B पैरामीटर को सक्रिय करता है। पिछले DeepSeek 67B की तुलना में, DeepSeek-V2 प्रदर्शन में बेहतर है, साथ ही 42.5% प्रशिक्षण लागत की बचत करता है, 93.3% KV कैश कम करता है, और अधिकतम उत्पादन थ्रूपुट को 5.76 गुना तक बढ़ाता है। यह मॉडल 8.1 ट्रिलियन टोकन के उच्च-गुणवत्ता वाले कॉर्पस पर पूर्व-प्रशिक्षित किया गया है, और पर्यवेक्षित ठीक-ठीक ट्यूनिंग (SFT) और प्रबलित अधिगम (RL) के माध्यम से और बेहतर किया गया है, जिससे यह मानक बेंचमार्क और खुले उत्पादन मूल्यांकन में उत्कृष्ट प्रदर्शन करता है।
वेबसाइट खोलें

DeepSeek-V2-Chat नवीनतम ट्रैफ़िक स्थिति

मासिक कुल विज़िट

29742941

बाउंस दर

44.20%

प्रति विज़िट औसत पृष्ठ

5.9

औसत विज़िट अवधि

00:04:44

DeepSeek-V2-Chat विज़िट प्रवृत्ति

DeepSeek-V2-Chat विज़िट भौगोलिक वितरण

DeepSeek-V2-Chat ट्रैफ़िक स्रोत

DeepSeek-V2-Chat विकल्प