No Fórum de Cultura de Pequim 2024, o Instituto de Inteligência Artificial de Pequim (BAAI) anunciou o lançamento oficial do CCI3.0 (Chinese Corpora Internet), uma nova geração de corpus da internet em chinês, impulsionando ainda mais a construção e o compartilhamento conjuntos de dados. O CCI3.0 inclui um conjunto de dados de 1000 GB e um subconjunto de alta qualidade de 498 GB, o CCI3.0-HQ, representando uma atualização importante após o primeiro lançamento do CCI1.0 em novembro de 2023 e do CCI2.0 em abril de 2024.

Desde seu primeiro lançamento, o número de downloads dos conjuntos de dados da série CCI ultrapassou 40.000, servindo ao desenvolvimento de grandes modelos em mais de 500 empresas e instituições, apoiando eficazmente o desenvolvimento do ecossistema da indústria de inteligência artificial chinesa.

微信截图_20240925135352.png

As características do CCI3.0 incluem:

  1. Escala ampliada e fontes diversas: O CCI3.0 inclui mais de 268 milhões de páginas da web, com conteúdo abrangendo notícias, mídia social, blogs e outros campos. Em comparação com o CCI2.0, a escala de dados do CCI3.0 aumentou quase duas vezes, e o número de instituições de origem de dados aumentou para mais de 20, melhorando significativamente a cobertura e a representatividade dos dados.

  2. Anotações detalhadas para habilitar aplicações: O CCI3.0 realizou uma classificação e marcação detalhadas dos dados brutos em mais de 10 dimensões, incluindo sintaxe, estrutura gramatical e nível educacional, para selecionar dados de alto valor. Além disso, o CCI3.0-HQ é um subconjunto de alta qualidade obtido através da anotação automática de amostras por um modelo de 70B e, em seguida, otimizado por meio do treinamento de um modelo de qualidade de pequeno tamanho, atendendo melhor às necessidades de diferentes setores e cenários de aplicação.

  3. Resultados notáveis e melhor compreensão do chinês: Em um experimento comparativo de treinamento de um modelo de 500M a partir do zero com 100B de dados, o CCI3.0 superou outros conjuntos de dados tanto no treinamento com corpus chinês isolado quanto no treinamento misto de corpus chinês e inglês, com o CCI3.0-HQ apresentando resultados ainda mais notáveis.

O Instituto de Inteligência Artificial de Pequim afirmou que continuará a cooperar com o ecossistema da indústria para promover a construção e o compartilhamento conjuntos de corpus, construindo conjuntos de dados em chinês em grande escala, de alta qualidade e com alta densidade de conhecimento, a fim de contribuir ainda mais para o desenvolvimento da indústria de inteligência artificial chinesa.

Endereço de download do CCI3.0

Flopsera:

https://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3

Huggingface:https://huggingface.co/datasets/BAAI/CCI3-Data

Datahub:

https://data.baai.ac.cn/details/BAAI-CCI3