Corpus de Internet en Chino

El Instituto de Inteligencia Artificial de Beijing (BAAI), en colaboración con Turant y Zhongke WenGe, ha creado el "Corpus de Internet en Chino" (CCI). Este corpus, tras un riguroso proceso de selección y limpieza, ofrece en su primera fase 104 GB de datos, que abarcan desde el año 2001 hasta 2023.

El BAAI ha anunciado que continuará expandiendo las fuentes de datos, mejorando los procesos de tratamiento de datos y ofreciendo otros conjuntos de datos en chino de alta calidad, como WUDAO corpora, COIG y MTP. Esta iniciativa tiene como objetivo proporcionar recursos lingüísticos seguros y fiables para los sectores de big data e inteligencia artificial.