El Instituto de Inteligencia Artificial de Beijing (BAAI) ha publicado MTP, el conjunto de datos de entrenamiento de vectores semánticos chino-inglés más grande del mundo, con un tamaño de 300 millones de pares. Este conjunto de datos incluye pares de textos chino-inglés de diversas fuentes, proporcionando una base importante para el entrenamiento de modelos de vectores semánticos chino-inglés.
El BAAI afirma que los datos juegan un papel crucial en el entrenamiento de modelos de gran tamaño y que impulsarán la innovación colaborativa en inteligencia artificial. Se espera que la publicación de este conjunto de datos resuelva la escasez de conjuntos de datos de entrenamiento para modelos en chino.