摩尔线程近日宣布开源其音频理解大模型MooER(摩耳),成为业界首个基于国产全功能GPU训练和推理的大型开源语音模型。MooER不仅支持中英文语音识别,还具备中译英的语音翻译能力,展现了强大的多语言处理能力。
MooER采用创新的三部分模型结构,包括Encoder、Adapter和Decoder(Large Language Model,LLM)。这种结构设计使得模型能够有效处理原始音频,提取特征,并执行下游任务如语音识别和翻译。项目团队已开源了推理代码和基于5000小时数据训练的模型,并计划进一步开源训练代码和基于8万小时数据训练的增强版模型。
在与多个知名开源音频理解大模型的对比测试中,MooER-5K表现优异。在中文测试中,其字错误率(CER)达到4.21%;英文测试中,词错误率(WER)为17.98%,与其他顶级模型相比表现更优或相当。特别值得一提的是,在Covost2zh2en中译英测试集上,MooER的BLEU分数高达25.2,大幅领先其他开源模型,达到了可与工业级应用媲美的水平。
更令人期待的是,基于8万小时数据训练的MooER-80k模型展现出更强大的性能,在中文测试集上的CER进一步降至3.50%,英文测试集上的WER也优化到12.66%,显示了巨大的发展潜力。
摩尔线程此次开源MooER不仅展示了国产GPU在AI领域的应用实力,也为全球音频AI技术的发展注入了新的活力。随着更多训练数据和代码的开源,业界期待MooER能在语音识别、翻译等领域带来更多突破性进展,推动音频AI技术的普及和创新应用。
地址:https://arxiv.org/pdf/2408.05101