O Meta lançou recentemente a série Seamless Communication, uma nova família de modelos de tradução de voz que inclui 4 modelos e oferece tradução em tempo real entre quase 100 idiomas, com uma latência de cerca de 2 segundos. Os modelos conseguem replicar características complexas da fala original, como pausas, tom e velocidade, tornando a tradução mais natural. Eles utilizam uma arquitetura não auto-regressiva para suportar traduções de sequências longas. Além disso, o Meta também disponibilizou o código-fonte dos modelos e o maior corpus de voz já criado, com 585.000 horas de dados, e adicionou recursos como marca d'água de áudio e mitigação de toxicidade na tradução para evitar o mau uso dos modelos.
Meta lança novo modelo de tradução de voz, com capacidade de imitar tom e velocidade
