MNBVC
MNBVC एक विशाल चीनी भाषाई डेटासेट है, जो ChatGPT के 40T डेटा प्रशिक्षण के बराबर है।
सामान्य उत्पादओपन सोर्सप्राकृतिक भाषा प्रसंस्करणचीनी भाषाई संग्रह
MNBVC (Massive Never-ending BT Vast Chinese corpus) एक ऐसा प्रोजेक्ट है जिसका उद्देश्य AI को समृद्ध चीनी भाषाई डेटा प्रदान करना है। इसमें न केवल मुख्यधारा की सांस्कृतिक सामग्री शामिल है, बल्कि अल्पसंख्यक संस्कृति और इंटरनेट स्लैंग भी शामिल हैं। डेटासेट में समाचार, निबंध, उपन्यास, पुस्तकें, पत्रिकाएँ, शोध पत्र, संवाद, पोस्ट, विकी, प्राचीन कविताएँ, गीत, उत्पाद विवरण, चुटकुले, मज़ेदार घटनाएँ, चैट रिकॉर्ड आदि कई प्रकार के शुद्ध पाठ चीनी डेटा शामिल हैं।
MNBVC नवीनतम ट्रैफ़िक स्थिति
मासिक कुल विज़िट
474564576
बाउंस दर
36.20%
प्रति विज़िट औसत पृष्ठ
6.1
औसत विज़िट अवधि
00:06:34