Publication du jeu de données MTP

L'Institut de recherche sur l'intelligence artificielle (AIRS) a publié MTP, le plus grand jeu de données de formation de modèles vectoriels sémantiques chinois-anglais au monde, avec une taille de 300 millions de paires. Ce jeu de données comprend des paires de textes chinois-anglais provenant de sources diverses, fournissant une base importante pour l'entraînement de modèles vectoriels sémantiques chinois-anglais.

L'AIRS a déclaré que les données jouent un rôle crucial dans l'entraînement des grands modèles et stimuleront l'innovation collaborative en intelligence artificielle. La publication de ce jeu de données devrait résoudre le problème du manque de jeux de données d'entraînement pour les modèles chinois.