MNBVC
MNBVC est un corpus de langue chinoise extrêmement volumineux, comparable aux 40 To de données utilisées pour l'entraînement de ChatGPT.
Produit OrdinaireOpen SourceTraitement automatique du langage naturelCorpus de langue chinoise
MNBVC (Massive Never-ending BT Vast Chinese corpus) est un projet visant à fournir aux IA un corpus riche en données textuelles chinoises. Il inclut non seulement des contenus culturels mainstream, mais aussi des contenus de niche et du langage internet. Le jeu de données comprend des textes de diverses formes : actualités, compositions, romans, livres, magazines, articles scientifiques, dialogues, publications, articles Wikipédia, poésie classique, paroles de chansons, descriptions de produits, blagues, anecdotes, conversations, etc., le tout sous forme de texte brut en chinois.
MNBVC Dernière situation du trafic
Nombre total de visites mensuelles
474564576
Taux de rebond
36.20%
Nombre moyen de pages par visite
6.1
Durée moyenne de la visite
00:06:34