Meta a publié en open source SeamlessM4T, le plus grand modèle de traduction multimodale au monde. Il prend en charge 100 langues, y compris les dialectes régionaux. Ce modèle peut effectuer des tâches de traduction multimodales : voix vers texte, voix vers voix, texte vers voix et texte vers texte.
SeamlessM4T intègre les modèles de traduction NLLB et MMS précédemment publiés par Meta, et a été entraîné sur un vaste ensemble de données de paires voix-texte alignées. Il obtient des résultats de pointe dans la traduction multitâche et fait preuve d'une grande robustesse, notamment face au bruit de fond et aux variations de locuteurs.
De plus, ce modèle améliore significativement les performances pour les langues à faibles ressources.