モウルスレッドは先日、音声理解大規模言語モデルMooER(ムーア)のオープンソース化を発表しました。国産のフル機能GPUを用いてトレーニングと推論が行われた、業界初のオープンソースの大規模音声モデルとなります。MooERは、中国語と英語の音声認識に対応するだけでなく、中国語から英語への音声翻訳機能も備え、強力な多言語処理能力を備えています。
MooERは、Encoder、Adapter、Decoder(Large Language Model、LLM)という3つのモジュールからなる革新的なモデル構造を採用しています。この構造により、モデルは生の音声データを効率的に処理し、特徴を抽出し、音声認識や翻訳などの下流タスクを実行できます。プロジェクトチームは、5000時間分のデータでトレーニングされたモデルと推論コードを既に公開しており、さらに8万時間分のデータでトレーニングされた強化版モデルとトレーニングコードの公開も予定しています。
複数の著名なオープンソース音声理解大規模言語モデルとの比較テストにおいて、MooER-5Kは優れた性能を示しました。中国語テストでは、文字誤り率(CER)が4.21%、英語テストでは単語誤り率(WER)が17.98%となり、他のトップレベルのモデルと同等かそれ以上の性能を達成しました。特に、Covost2zh2enの中国語から英語への翻訳テストセットでは、MooERのBLEUスコアが25.2と高く、他のオープンソースモデルを大きく上回り、実用レベルに匹敵する性能を示しました。
さらに期待されるのは、8万時間分のデータでトレーニングされたMooER-80kモデルです。中国語テストセットでのCERは3.50%に、英語テストセットでのWERは12.66%にまで改善され、大きな可能性を示しています。
モウルスレッドによるMooERのオープンソース化は、国産GPUのAI分野における応用力の高さを示すとともに、世界の音声AI技術の発展に新たな活力を与えるものです。より多くのトレーニングデータとコードが公開されることで、MooERが音声認識や翻訳などの分野で更なるブレークスルーをもたらし、音声AI技術の普及と革新的な応用を促進することが期待されます。
アドレス:https://arxiv.org/pdf/2408.05101