Meta ha lanzado SeamlessM4T, el modelo de traducción multimodal más grande del mundo, con soporte para 100 idiomas, incluyendo dialectos regionales. Este modelo puede realizar tareas de traducción multimodal como voz a texto, voz a voz, texto a voz y texto a texto.
SeamlessM4T integra modelos de traducción previamente lanzados por Meta, como NLLB y MMS, y ha sido entrenado con una gran cantidad de datos de voz y texto alineados. El modelo ha logrado resultados de vanguardia en traducción multitarea y ha demostrado una excelente robustez en pruebas, especialmente en la identificación de ruido de fondo y variaciones en la voz del hablante. Además, el modelo ha mejorado significativamente el rendimiento de los idiomas con pocos recursos.