O Meta lançou o SeamlessM4T, o maior modelo de tradução multimodal de código aberto do mundo, com suporte para 100 idiomas e capacidade de reconhecer dialetos. Este modelo pode executar tarefas de tradução multimodal, incluindo voz para texto, voz para voz, texto para voz e texto para texto.
O SeamlessM4T integra modelos de tradução anteriores do Meta, como o NLLB e o MMS, e foi treinado usando uma grande quantidade de dados de voz e texto alinhados. O modelo alcançou resultados de ponta em tradução multitarefa e demonstrou excelente desempenho em testes de robustez, especialmente na identificação de ruído de fundo e variações de locutor. Além disso, o modelo melhorou significativamente o desempenho de idiomas com recursos baixos e médios.