SenseVoiceは、自動音声認識(ASR)、言語識別(LID)、音声感情認識(SER)、音声イベント検出(AED)など、複数の音声理解機能を備えた音声基礎モデルです。50種類以上の言語に対応し、高精度な多言語音声認識、音声感情認識、音声イベント検出に特化しており、Whisperモデルを凌駕する認識性能を実現しています。非自己回帰型エンドツーエンドフレームワークを採用することで、推論遅延が極めて低く、リアルタイム音声処理に最適です。