Das Forschungsinstitut für Künstliche Intelligenz (Beijing Academy of Artificial Intelligence, BAAI) hat mit MTP den weltweit größten Trainingsdatensatz für semantische Vektormodelle in Chinesisch und Englisch veröffentlicht. Dieser umfasst beeindruckende 300 Millionen Paarungen. Der Datensatz enthält chinesisch-englische Textpaare aus verschiedenen Quellen und bildet eine wichtige Grundlage für das Training von semantischen Vektormodellen für Chinesisch und Englisch.

BAAI betont die entscheidende Rolle von Daten für das Training großer Sprachmodelle und deren Beitrag zur Förderung von Innovationen im Bereich der künstlichen Intelligenz. Die Veröffentlichung dieses Datensatzes verspricht, das Problem des Mangels an Trainingsdaten für chinesische Modelle zu lösen.