摩尔线程宣布开源音频理解大模型MooER

摩尔线程近日宣布开源其音频理解大模型MooER（摩耳），成为业界首个基于国产全功能GPU训练和推理的大型开源语音模型。MooER不仅支持中英文语音识别，还具备中译英的语音翻译能力，展现了强大的多语言处理能力。

MooER采用创新的三部分模型结构，包括Encoder、Adapter和Decoder（Large Language Model，LLM）。这种结构设计使得模型能够有效处理原始音频，提取特征，并执行下游任务如语音识别和翻译。项目团队已开源了推理代码和基于5000小时数据训练的模型，并计划进一步开源训练代码和基于8万小时数据训练的增强版模型。

在与多个知名开源音频理解大模型的对比测试中，MooER-5K表现优异。在中文测试中，其字错误率（CER）达到4.21%;英文测试中，词错误率(WER)为17.98%，与其他顶级模型相比表现更优或相当。特别值得一提的是，在Covost2zh2en中译英测试集上，MooER的BLEU分数高达25.2，大幅领先其他开源模型，达到了可与工业级应用媲美的水平。

更令人期待的是，基于8万小时数据训练的MooER-80k模型展现出更强大的性能，在中文测试集上的CER进一步降至3.50%，英文测试集上的WER也优化到12.66%，显示了巨大的发展潜力。

摩尔线程此次开源MooER不仅展示了国产GPU在AI领域的应用实力，也为全球音频AI技术的发展注入了新的活力。随着更多训练数据和代码的开源，业界期待MooER能在语音识别、翻译等领域带来更多突破性进展，推动音频AI技术的普及和创新应用。

地址:https://arxiv.org/pdf/2408.05101

AI新闻资讯

摩尔线程宣布开源音频理解大模型MooER

AIbase基地