DCLM-बेसलाइन
उच्च-प्रदर्शन भाषा मॉडल बेंचमार्क डेटासेट
सामान्य उत्पादप्रोग्रामिंगप्राकृतिक भाषा प्रसंस्करणभाषा मॉडल
DCLM-बेसलाइन एक पूर्व-प्रशिक्षित डेटासेट है जिसका उपयोग भाषा मॉडल बेंचमार्किंग के लिए किया जाता है, जिसमें 4T टोकन और 3B दस्तावेज़ शामिल हैं। यह कॉमन क्रॉल डेटासेट से सावधानीपूर्वक क्यूरेट किए गए डेटा सफाई, फ़िल्टरिंग और डुप्लिकेट हटाने के चरणों के माध्यम से निकाला गया है, जिसका उद्देश्य कुशल भाषा मॉडल के प्रशिक्षण में डेटा क्यूरेशन के महत्व को प्रदर्शित करना है। यह डेटासेट केवल शोध के उद्देश्यों के लिए है, उत्पादन वातावरण या विशिष्ट डोमेन मॉडल प्रशिक्षण के लिए उपयुक्त नहीं है, जैसे कोड और गणित।
DCLM-बेसलाइन नवीनतम ट्रैफ़िक स्थिति
मासिक कुल विज़िट
29742941
बाउंस दर
44.20%
प्रति विज़िट औसत पृष्ठ
5.9
औसत विज़िट अवधि
00:04:44