Recentemente, a Moore Threads anunciou o lançamento de código aberto de seu modelo de linguagem de áudio de grande escala, o MooER (摩耳), o primeiro modelo de linguagem de áudio de código aberto do setor treinado e inferido em uma GPU nacional de recursos completos. Isso demonstra os avanços mais recentes da Moore Threads na área de inteligência artificial.

O modelo MooER, na plataforma de computação de alto desempenho Kuang'e (KUAE) da Moore Threads, levou apenas 38 horas para concluir o treinamento com 5.000 horas de dados de áudio e pseudo-rótulos. Essa conquista é resultado da combinação de algoritmos inovadores desenvolvidos pela empresa e recursos de computação de alta eficiência. O MooER suporta reconhecimento de voz em chinês e inglês, além de tradução de voz chinês-inglês, apresentando desempenho superior em vários conjuntos de testes de reconhecimento de voz. Especificamente, no conjunto de testes de tradução chinês-inglês Covost2, o MooER-5K alcançou uma pontuação BLEU de 25,2, aproximando-se do desempenho de nível industrial.

微信截图_20240826083635.png

A equipe de IA da Moore Threads disponibilizou o código de inferência e o modelo treinado com 5.000 horas de dados em código aberto, planejando, posteriormente, liberar o código de treinamento e o modelo treinado com 80.000 horas de dados. A estrutura do modelo MooER inclui três partes: Encoder, Adapter e Decoder. Ele utiliza o codificador de voz de código aberto Paraformer e o modelo de linguagem de grande escala Qwen2-7B-instruct para inicializar os módulos Encoder e LLM.

Em comparações técnicas, o MooER-5K superou outros modelos de código aberto em conjuntos de testes em chinês e inglês. Com este projeto de código aberto, a Moore Threads oferece uma referência e suporte valiosos para desenvolvedores com recursos de dados e computação limitados.

GitHub:https://github.com/MooreThreads/MooER