Meta ha lanzado recientemente la serie de modelos de traducción de voz Seamless Communication, que incluye cuatro modelos y admite la traducción de voz en tiempo real entre casi 100 idiomas, con un retraso de alrededor de 2 segundos. Los modelos pueden replicar características complejas del habla original, como las pausas, el tono y la velocidad, lo que hace que la traducción sea más realista. Emplean una arquitectura no autorregresiva para admitir la traducción de secuencias largas. Además, Meta también ha publicado el código abierto de los modelos y el corpus de voz más grande del mundo, con 585.000 horas de datos, y ha añadido funciones como marcas de agua de audio y mitigación de la toxicidad de la traducción para evitar el mal uso del modelo.