音声認識分野において、中国語認識技術の発展は常に注目を集めています。最近、小紅書(xiaohongshu)のFireRedチームは、全く新しいオープンソースの音声認識モデル——FireRedASRを発表しました。この大規模モデルに基づく音声認識システムは、複数の標準テストセットで優れた成績を収め、中国語音声認識技術の大きな飛躍を意味しています。

144649d6-0590-4a91-b080-0db2afdf54a9.png

FireRedASRの中核指標は文字誤り率(CER)であり、この指標が低いほど、モデルの認識精度が高いことを示します。最近の公開テストで、FireRedASRのCERは3.05%に達し、以前の最良モデルSeed-ASRよりも8.4%低下しました。この結果は、FireRedチームの音声認識技術における革新的な能力を示しています。

FireRedASRモデルは、FireRedASR-LLMとFireRedASR-AEDという2つの主要な構造に分かれています。前者は極めて高い音声認識精度に重点を置いており、後者は精度と推論効率のバランスをうまく取っています。チームは、様々なアプリケーションシナリオのニーズを満たすために、様々な規模のモデルと推論コードを提供しています。

複数の日常的なアプリケーションシナリオにおいても、FireRedASRは強力な性能を示しています。短編動画、ライブ配信、音声入力など、様々なソースから構成されるテストセットにおいて、FireRedASR-LLMのCERは、業界をリードするサービスプロバイダーと比較して23.7%~40%低下しました。特に歌詞認識が必要なシナリオでは、このモデルの性能は非常に優れており、CERは50.2%~66.7%の相対的な低下を実現しています。

さらに、FireRedASRは中国語の方言と英語のシナリオでも優れた性能を示しており、KeSpeechとLibriSpeechテストセットにおけるCERは、以前のオープンソースモデルよりも大幅に優れており、様々な言語環境における堅牢性と適応性を証明しています。

FireRedチームは、この新しいモデルをオープンソース化することで、音声認識技術の発展と応用を促進し、音声インタラクションの未来に貢献することを期待しています。すべてのモデルとコードはGitHubで公開されており、より多くの開発者と研究者の参加を歓迎しています。

huggingface:https://huggingface.co/FireRedTeam

github:https://github.com/FireRedTeam/FireRedASR

要点:

- 🎤 FireRedASRは小紅書チームが新しく発表したオープンソースの音声認識モデルで、中国語認識の精度は優れています。

- 🚀 モデルはFireRedASR-LLMとFireRedASR-AEDに分かれており、それぞれ精度と効率のニーズに対応しています。

- 🌍 FireRedASRは様々なシナリオで優れた性能を発揮し、標準中国語、中国語の方言、英語など様々な言語環境に適用できます。