¡El modelo de traducción de código abierto más grande del mundo! Desarrollado por Meta, ¡admite 100 idiomas y voces!

微信公众平台

Publicado elNoticias de IA · 2 minutos de lectura · Aug 24, 2023

142

Meta ha lanzado SeamlessM4T, el modelo de traducción multimodal más grande del mundo, con soporte para 100 idiomas, incluyendo dialectos regionales. Este modelo puede realizar tareas de traducción multimodal como voz a texto, voz a voz, texto a voz y texto a texto.

SeamlessM4T integra modelos de traducción previamente lanzados por Meta, como NLLB y MMS, y ha sido entrenado con una gran cantidad de datos de voz y texto alineados. El modelo ha logrado resultados de vanguardia en traducción multitarea y ha demostrado una excelente robustez en pruebas, especialmente en la identificación de ruido de fondo y variaciones en la voz del hablante. Además, el modelo ha mejorado significativamente el rendimiento de los idiomas con pocos recursos.

FireRedASR: El modelo de reconocimiento de voz de código abierto de Xiaohongshu, con una precisión superior en chino

En el campo del reconocimiento de voz, el desarrollo de la tecnología de reconocimiento de chino ha sido un tema de gran interés. Recientemente, el equipo FireRed de Xiaohongshu lanzó un nuevo modelo de reconocimiento de voz de código abierto: FireRedASR. Este sistema de reconocimiento de voz basado en modelos grandes ha obtenido excelentes resultados en varios conjuntos de pruebas estándar, lo que representa un gran avance en la tecnología de reconocimiento de voz en chino. El indicador principal de FireRedASR es la tasa de error de caracteres (CER), un indicador que cuanto más bajo sea, mejor será el rendimiento del modelo. En las pruebas públicas recientes, Fi

Moonshine: Nuevo modelo de reconocimiento de voz de código abierto, cinco veces más rápido que Whisper de OpenAI

La startup estadounidense Useful Sensors ha lanzado un modelo de reconocimiento de voz de código abierto llamado Moonshine. Moonshine está diseñado para procesar datos de audio de manera más eficiente, utilizando menos recursos computacionales que Whisper de OpenAI y siendo cinco veces más rápido. Este nuevo modelo está diseñado para aplicaciones en tiempo real en hardware con recursos limitados y cuenta con una arquitectura flexible. A diferencia de Whisper, que procesa el audio en fragmentos fijos de 30 segundos...

Gladia, API de reconocimiento de voz, obtiene 16 millones de dólares en una ronda Serie A para desafiar a Amazon, Microsoft y Google

La startup francesa Gladia, que ofrece una interfaz de programación de aplicaciones (API) de reconocimiento de voz, ha recaudado 16 millones de dólares en una ronda Serie A. Básicamente, la API de Gladia convierte cualquier archivo de audio en texto con alta precisión y baja latencia. Si bien Amazon, Microsoft y Google ofrecen APIs de voz a texto como parte de sus suites de productos en la nube, su rendimiento no es tan bueno como los modelos más nuevos que ofrecen algunas startups especializadas. Especialmente desde el lanzamiento del modelo Whisper de OpenAI, este campo ha experimentado un gran avance.

Noticias de IA

¡El modelo de traducción de código abierto más grande del mundo! Desarrollado por Meta, ¡admite 100 idiomas y voces!

微信公众平台

Noticias de IA relacionadas recomendadas

OnePlus 13 presenta ColorOS 15.0.0.701 con función de reconocimiento de voz AIGC

FireRedASR: El modelo de reconocimiento de voz de código abierto de Xiaohongshu, con una precisión superior en chino

Moonshine: Nuevo modelo de reconocimiento de voz de código abierto, cinco veces más rápido que Whisper de OpenAI

Gladia, API de reconocimiento de voz, obtiene 16 millones de dólares en una ronda Serie A para desafiar a Amazon, Microsoft y Google