La Plateforme de ressources linguistiques en chinois sur Internet est un site web professionnel organisé par l'Association chinoise de cybersécurité, visant à fournir des ressources linguistiques chinoises de haute qualité, sûres et conformes pour le pré-entraînement des grands modèles d'IA. Cette plateforme rassemble les avantages de la collaboration entre entreprises, universités et organismes de recherche, et s'appuie sur un mécanisme de « construction conjointe – partage » pour constituer plusieurs corpus de haute qualité, notamment le Corpus de base de l'Internet chinois 2.0, l'ensemble de données sur les valeurs dominantes du site web du Peuple, et le corpus de documents des Ming et Qing de la Bibliothèque nationale. Ces corpus ont subi des étapes de traitement strictes, telles que la sélection des sources, le nettoyage des formats, le filtrage linguistique, la suppression des doublons, le filtrage de contenu et le filtrage de la vie privée, garantissant ainsi la légalité, l'authenticité, la précision et l'objectivité des données. Les ressources de la plateforme revêtent une importance capitale pour stimuler l'innovation technologique et le développement industriel de l'IA nationale. Elles permettent aux grands modèles de mieux comprendre et générer du contenu en chinois, améliorant ainsi leurs capacités cognitives et l'alignement de leurs valeurs.