DCLM-बेसलाइन

उच्च-प्रदर्शन भाषा मॉडल बेंचमार्क डेटासेट

सामान्य उत्पादप्रोग्रामिंगप्राकृतिक भाषा प्रसंस्करणभाषा मॉडल
DCLM-बेसलाइन एक पूर्व-प्रशिक्षित डेटासेट है जिसका उपयोग भाषा मॉडल बेंचमार्किंग के लिए किया जाता है, जिसमें 4T टोकन और 3B दस्तावेज़ शामिल हैं। यह कॉमन क्रॉल डेटासेट से सावधानीपूर्वक क्यूरेट किए गए डेटा सफाई, फ़िल्टरिंग और डुप्लिकेट हटाने के चरणों के माध्यम से निकाला गया है, जिसका उद्देश्य कुशल भाषा मॉडल के प्रशिक्षण में डेटा क्यूरेशन के महत्व को प्रदर्शित करना है। यह डेटासेट केवल शोध के उद्देश्यों के लिए है, उत्पादन वातावरण या विशिष्ट डोमेन मॉडल प्रशिक्षण के लिए उपयुक्त नहीं है, जैसे कोड और गणित।
वेबसाइट खोलें

DCLM-बेसलाइन नवीनतम ट्रैफ़िक स्थिति

मासिक कुल विज़िट

29742941

बाउंस दर

44.20%

प्रति विज़िट औसत पृष्ठ

5.9

औसत विज़िट अवधि

00:04:44

DCLM-बेसलाइन विज़िट प्रवृत्ति

DCLM-बेसलाइन विज़िट भौगोलिक वितरण

DCLM-बेसलाइन ट्रैफ़िक स्रोत

DCLM-बेसलाइन विकल्प