Die Chinesische Internet-Korpusressourcen-Plattform ist eine professionelle Website, die von der Chinesischen Vereinigung für Cybersicherheit betrieben wird. Sie zielt darauf ab, qualitativ hochwertige und rechtssichere chinesische Sprachdatenressourcen für das Pretraining großer KI-Sprachmodelle bereitzustellen. Die Plattform bündelt die Synergien von Unternehmen, Hochschulen und Forschungseinrichtungen und hat auf Basis eines „Gemeinsam aufbauen – gemeinsam nutzen“-Mechanismus mehrere hochwertige Korpora aufgebaut, darunter das Chinesische Internet-Basis-Korpus 2.0, den Datensatz zu den vorherrschenden Werten von People's Daily und das Korpus der Ming- und Qing-Dynastie-Literatur der Nationalen Bibliotheksbehörde. Diese Korpora wurden strengen Verfahren der Quellenprüfung, Formatierung, sprachlicher Filterung, Datenbereinigung, Inhaltsfilterung und Datenschutzfilterung unterzogen, um die Legalität, Authentizität, Genauigkeit und Objektivität der Daten zu gewährleisten. Die Ressourcen der Plattform sind von großer Bedeutung für die Förderung von Innovationen und der Entwicklung der KI-Technologie im Land. Sie helfen großen Sprachmodellen, chinesische Inhalte besser zu verstehen und zu generieren und verbessern deren Wissensbasis und die Übereinstimmung mit den Werten.