Le corpus multilingue et multi-modal « Wanjuan·Silk Road 2.0 », publié par le laboratoire d'intelligence artificielle de Shanghai, est désormais disponible en accès libre. S'appuyant sur les 5 langues déjà incluses (arabe, russe, coréen, vietnamien et thaï), il intègre 3 nouvelles langues rares : le serbe, le hongrois et le tchèque. Il couvre quatre modalités : texte, image, audio et vidéo, pour un total de plus de 11,5 millions d'entrées et plus de 26 000 heures d'audio et de vidéo, constituant ainsi une ressource importante pour la recherche multimodale en langues minoritaires.
« Wanjuan·Silk Road 2.0 » se caractérise par son multilinguisme, son ampleur, sa multi-modalité et sa haute qualité. Il ne se contente pas d'élargir le nombre de langues, mais améliore également considérablement les modalités et la quantité de données. Il intègre de nouvelles données multimodales : image-texte, audio-texte, vidéo-texte et réglage fin par instructions spécifiques (SFT), couvrant ainsi toute la chaîne de la recherche multimodale. Les données, issues d'un processus de production éprouvé et sécurisées, ont été soumises à un contrôle qualité rigoureux grâce à des algorithmes de filtrage et une annotation manuelle précise par des experts locaux. Il en résulte un jeu de données de haute qualité, couvrant plusieurs modalités et domaines, adapté à différents contextes tels que le tourisme culturel, le commerce et l'éducation scientifique.
Le contenu open source inclut : plus de 2 millions d'entrées image-texte ; plus de 1 600 heures d'audio-texte ; plus de 25 000 heures de vidéo-texte ; et 180 000 entrées SFT. Les données open source couvrent de nombreuses langues et offrent aux développeurs de riches ressources de données multimodales.
« Wanjuan·Silk Road 2.0 » présente un effet d'amélioration des modèles remarquable. Lors de l'entraînement d'un modèle de base de 7 milliards de paramètres, les performances globales du modèle ont augmenté de 52,3 %. Même avec un grand modèle de 700 milliards de paramètres, un gain de performance de 12,8 % a été observé. Ce jeu de données permet aux modèles légers de surpasser les grands modèles dans le traitement multilingue, offrant un soutien précieux pour le réglage fin des modèles multilingues.
Adresse du jeu de données :
https://www.modelscope.cn/collections/wanjuansilu-20-a3d1a96dad6042
Framework d'ajustement fin :
https://github.com/modelscope/ms-swift