En el Foro de Cultura de Beijing 2024, el Instituto de Investigación de Inteligencia Artificial de Beijing (BAAI) anunció el lanzamiento oficial del CCI3.0 (Chinese Corpora Internet), una nueva generación de corpus de internet en chino, impulsando aún más la construcción y el intercambio de datos. CCI3.0 incluye un conjunto de datos de 1000 GB y un subconjunto de alta calidad de 498 GB, CCI3.0-HQ. Esta es una importante actualización tras el lanzamiento inicial de CCI1.0 en noviembre de 2023 y CCI2.0 en abril de 2024.

Desde su lanzamiento inicial, la serie de conjuntos de datos CCI ha registrado más de 40.000 descargas, sirviendo al desarrollo de modelos de grandes empresas en más de 500 empresas e instituciones, apoyando eficazmente el desarrollo del ecosistema de la industria de la inteligencia artificial en China.

微信截图_20240925135352.png

Las características de CCI3.0 incluyen:

  1. Mayor escala y fuentes más amplias: CCI3.0 incluye más de 268 millones de páginas web, con contenido que abarca noticias, redes sociales, blogs y otros campos. En comparación con CCI2.0, la escala de datos de CCI3.0 se ha duplicado aproximadamente, y el número de instituciones que aportan datos ha aumentado a más de 20, mejorando significativamente la cobertura y la representatividad de los datos.

  2. Anotación detallada y aplicación mejorada: CCI3.0 ha realizado una clasificación y etiquetado detallados de los datos originales en más de 10 dimensiones, incluyendo gramática, sintaxis y nivel educativo, para filtrar datos de alto valor. Además, CCI3.0-HQ es un subconjunto de alta calidad obtenido mediante la anotación automática de muestras con un modelo de 70B y la optimización posterior mediante el entrenamiento de un modelo de calidad de pequeño tamaño, satisfaciendo mejor las necesidades de diferentes industrias y escenarios de aplicación.

  3. Resultados notables y mejor comprensión del chino: En un experimento de comparación en el que se entrenó un modelo de 500M desde cero con 100B datos, CCI3.0 superó a otros conjuntos de datos tanto en el entrenamiento con corpus chino solo como en el entrenamiento mixto con corpus chino e inglés, siendo aún más notable el rendimiento de CCI3.0-HQ.

El Instituto de Investigación de Inteligencia Artificial de Beijing ha declarado que continuará colaborando con el ecosistema de la industria para promover la construcción y el intercambio de corpus, creando conjuntos de datos en chino de gran escala, alta calidad y alta densidad de conocimiento, para contribuir aún más al desarrollo de la industria de la inteligencia artificial en China.

Dirección de descarga de CCI3.0

Flopsera:

https://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3

Huggingface:https://huggingface.co/datasets/BAAI/CCI3-Data

Datahub:

https://data.baai.ac.cn/details/BAAI-CCI3