A Moore Threads anunciou recentemente a disponibilização em código aberto de seu grande modelo de compreensão de áudio, MooER (摩耳), tornando-se o primeiro grande modelo de linguagem de código aberto do setor treinado e inferido em uma GPU nacional de recursos completos. O MooER não apenas suporta reconhecimento de voz em chinês e inglês, mas também possui a capacidade de tradução de voz do chinês para o inglês, demonstrando sua poderosa capacidade de processamento multilíngue.

O MooER emprega uma estrutura de modelo inovadora de três partes, incluindo Encoder, Adapter e Decoder (Large Language Model, LLM). Este design de estrutura permite que o modelo processe efetivamente o áudio bruto, extraia recursos e execute tarefas a jusante, como reconhecimento de voz e tradução. A equipe do projeto já disponibilizou em código aberto o código de inferência e o modelo treinado com base em 5.000 horas de dados, e planeja disponibilizar em código aberto o código de treinamento e um modelo aprimorado treinado com base em 80.000 horas de dados.

QQ20240826-143012.png

Em testes comparativos com vários grandes modelos de compreensão de áudio de código aberto conhecidos, o MooER-5K apresentou um desempenho excelente. Nos testes em chinês, sua taxa de erro de caracteres (CER) atingiu 4,21%; nos testes em inglês, a taxa de erro de palavras (WER) foi de 17,98%, apresentando desempenho superior ou equivalente ao de outros modelos de ponta. É particularmente digno de nota que, no conjunto de testes de tradução do chinês para o inglês Covost2zh2en, a pontuação BLEU do MooER atingiu 25,2, superando significativamente outros modelos de código aberto e alcançando um nível comparável a aplicações de nível industrial.

Ainda mais promissor é que o modelo MooER-80k, treinado com 80.000 horas de dados, demonstra um desempenho ainda mais robusto, com o CER no conjunto de testes em chinês reduzido para 3,50% e o WER no conjunto de testes em inglês otimizado para 12,66%, mostrando um enorme potencial de desenvolvimento.

A disponibilização em código aberto do MooER pela Moore Threads não apenas demonstra a força das GPUs nacionais no campo da IA, mas também injeta nova vitalidade no desenvolvimento da tecnologia de IA de áudio em todo o mundo. Com a disponibilização em código aberto de mais dados de treinamento e código, o setor espera que o MooER possa trazer avanços mais inovadores nos campos de reconhecimento de voz e tradução, promovendo a popularização e aplicações inovadoras da tecnologia de IA de áudio.

Endereço:https://arxiv.org/pdf/2408.05101