SenseVoice é um modelo de voz básico que inclui capacidades de compreensão de voz multilíngue, como reconhecimento automático de voz (ASR), identificação de idioma de voz (LID), reconhecimento de emoção de voz (SER) e detecção de eventos de áudio (AED). Ele se concentra em reconhecimento de voz multilíngue de alta precisão, reconhecimento de emoção de voz e detecção de eventos de áudio, suportando mais de 50 idiomas, com desempenho de reconhecimento superior ao modelo Whisper. O modelo adota uma estrutura de ponta a ponta não autorregressiva, com latência de inferência extremamente baixa, sendo uma escolha ideal para processamento de voz em tempo real.