O Instituto de Inteligência Artificial de Pequim (BAAI), em colaboração com a Tolvers e a China Science Zhigu, construiu o "Corpus da Internet Chinesa" (CCI). Este corpus passou por um rigoroso processo de seleção e limpeza, com a primeira versão disponibilizando 104 GB de dados, cobrindo o período de 2001 a 2023. O BAAI afirmou que continuará expandindo as fontes de dados, aprimorando os processos de tratamento de dados e disponibilizando outros conjuntos de dados chineses de alta qualidade, como WUDAO corpora, COIG e MTP. Essa iniciativa visa fornecer recursos linguísticos seguros e confiáveis para os setores de big data e inteligência artificial.