Recientemente, Moore Threads anunció el lanzamiento de código abierto de su modelo de lenguaje grande para comprensión de audio, MooER (摩耳). Este es el primer modelo de lenguaje de voz grande de código abierto del sector entrenado e inferido utilizando una GPU nacional de funciones completas, demostrando los últimos logros de Moore Threads en el campo de la inteligencia artificial.
El modelo MooER, en la plataforma de computación inteligente Kuae (夸娥) de Moore Threads, completó el entrenamiento con 5000 horas de datos de audio y etiquetas pseudo en solo 38 horas. Este logro se debe a la combinación de algoritmos innovadores desarrollados internamente y recursos de computación eficientes. MooER no solo admite el reconocimiento de voz en chino e inglés, sino que también cuenta con capacidades de traducción de voz entre chino e inglés, mostrando un rendimiento excepcional en varios conjuntos de pruebas de reconocimiento de voz. En particular, en el conjunto de pruebas de traducción chino-inglés Covost2, MooER-5K obtuvo una puntuación BLEU de 25.2, acercándose a los resultados de nivel industrial.
El equipo de IA de Moore Threads ha publicado el código de inferencia y el modelo entrenado con 5000 horas de datos, y planea publicar posteriormente el código de entrenamiento y el modelo entrenado con 80,000 horas de datos. La estructura del modelo MooER incluye tres partes: codificador (Encoder), adaptador (Adapter) y decodificador (Decoder). Utiliza el codificador de voz de código abierto Paraformer y el modelo de lenguaje grande Qwen2-7B-instruct para inicializar el módulo Encoder y el módulo LLM.
En la comparación técnica, MooER-5K superó a otros modelos de código abierto tanto en los conjuntos de pruebas en chino como en inglés. A través de este proyecto de código abierto, Moore Threads proporciona una valiosa referencia y apoyo a los desarrolladores con recursos de datos y computación limitados.
GitHub:https://github.com/MooreThreads/MooER