Moles Technology ha anunciado recientemente la publicación de código abierto de su gran modelo de comprensión de audio MooER (摩耳), convirtiéndose en el primer gran modelo de voz de código abierto de la industria basado en GPU de fabricación nacional para entrenamiento e inferencia. MooER no solo admite el reconocimiento de voz en chino e inglés, sino que también cuenta con la capacidad de traducción de voz chino-inglés, lo que demuestra una potente capacidad de procesamiento multilingüe.
MooER adopta una innovadora estructura de modelo de tres partes, que incluye Encoder, Adapter y Decoder (Large Language Model, LLM). Este diseño de estructura permite que el modelo procese eficazmente el audio original, extraiga características y ejecute tareas posteriores como el reconocimiento de voz y la traducción. El equipo del proyecto ya ha publicado el código de inferencia y el modelo entrenado con 5000 horas de datos, y planea publicar posteriormente el código de entrenamiento y una versión mejorada del modelo entrenado con 80.000 horas de datos.
En las pruebas comparativas con varios grandes modelos de comprensión de audio de código abierto conocidos, MooER-5K ha mostrado un rendimiento excelente. En las pruebas en chino, su tasa de error de caracteres (CER) alcanzó el 4,21%; en las pruebas en inglés, la tasa de error de palabras (WER) fue del 17,98%, mostrando un rendimiento superior o equivalente al de otros modelos de primera línea. Cabe destacar que en el conjunto de pruebas de traducción chino-inglés Covost2zh2en, la puntuación BLEU de MooER alcanzó la asombrosa cifra de 25,2, superando con creces a otros modelos de código abierto y alcanzando un nivel comparable al de las aplicaciones industriales.
Más esperanzador aún, el modelo MooER-80k, entrenado con 80.000 horas de datos, muestra un rendimiento aún más potente, con una CER en el conjunto de pruebas en chino reducida a 3,50% y una WER en el conjunto de pruebas en inglés optimizada hasta el 12,66%, lo que demuestra un enorme potencial de desarrollo.
La publicación de código abierto de MooER por parte de Moles Technology no solo demuestra la capacidad de aplicación de las GPU de fabricación nacional en el campo de la IA, sino que también aporta una nueva vitalidad al desarrollo de la tecnología de IA de audio a nivel mundial. Con la publicación de más datos de entrenamiento y código, la industria espera que MooER pueda lograr avances más innovadores en los campos del reconocimiento de voz y la traducción, impulsando la popularización y la aplicación innovadora de la tecnología de IA de audio.
Dirección: https://arxiv.org/pdf/2408.05101