Lors du Forum culturel de Beijing 2024, l'Institut de recherche sur l'intelligence artificielle de Beijing (BAAI) a annoncé la publication officielle de CCI3.0 (Chinese Corpora Internet), une nouvelle génération de corpus de données textuelles en chinois, afin de promouvoir le partage et la construction conjointe de données. CCI3.0 comprend un ensemble de données de 1000 Go et un sous-ensemble de haute qualité de 498 Go, CCI3.0-HQ. Il s'agit d'une mise à jour importante après la première publication en open source de CCI1.0 en novembre 2023 et de CCI2.0 en avril 2024.
Depuis sa première publication en open source, les ensembles de données de la série CCI ont été téléchargés plus de 40 000 fois, servant au développement de grands modèles pour plus de 500 entreprises et organismes, soutenant efficacement le développement de l'écosystème de l'intelligence artificielle en Chine.
Les caractéristiques de CCI3.0 incluent :
Étendue et sources élargies : CCI3.0 contient plus de 268 millions de pages web, couvrant des domaines tels que les actualités, les médias sociaux et les blogs. Par rapport à CCI2.0, la taille des données de CCI3.0 a presque doublé, et le nombre d'organismes sources a augmenté à plus de 20, améliorant considérablement la couverture et la représentativité des données.
Annotation précise, pour des applications performantes : CCI3.0 a subi une classification granulaire et un étiquetage détaillé des données brutes selon plus de 10 dimensions, incluant la grammaire, la syntaxe et le niveau d'éducation, afin de sélectionner des données de haute valeur. De plus, CCI3.0-HQ est un sous-ensemble de haute qualité obtenu en utilisant un modèle de 70 milliards de paramètres pour l'annotation automatique des échantillons, puis en optimisant ces échantillons à l'aide d'un modèle de qualité de petite taille. Il répond ainsi mieux aux besoins des différents secteurs et scénarios d'application.
Résultats remarquables, une meilleure compréhension du chinois : Dans une expérience comparative d'entraînement de modèles de 500 millions de paramètres à partir de zéro avec 100 milliards de données, CCI3.0 a surpassé les autres ensembles de données, tant pour l'entraînement sur des données uniquement en chinois que pour l'entraînement mixte sur des données chinoises et anglaises. Les résultats de CCI3.0-HQ sont encore plus significatifs.
L'institut de recherche Zhiyuan a déclaré qu'il continuerait à collaborer avec l'écosystème du secteur pour promouvoir le partage et la construction conjointe du corpus de données, afin de créer des ensembles de données en chinois à grande échelle, de haute qualité et à forte densité de connaissances, et ainsi contribuer davantage au développement de l'industrie chinoise de l'intelligence artificielle.
Adresse de téléchargement de CCI3.0
Flopsera :
https://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3
Huggingface : https://huggingface.co/datasets/BAAI/CCI3-Data
Datahub :
https://data.baai.ac.cn/details/BAAI-CCI3