whisper-diarization

基于OpenAI Whisper的自动语音识别与说话人分割

普通产品编程语音识别说话人分割
whisper-diarization是一个结合了Whisper自动语音识别(ASR)能力、声音活动检测(VAD)和说话人嵌入技术的开源项目。它通过提取音频中的声音部分来提高说话人嵌入的准确性,然后使用Whisper生成转录文本,并通过WhisperX校正时间戳和对齐,以减少由于时间偏移导致的分割错误。接着,使用MarbleNet进行VAD和分割以排除静音,TitaNet用于提取说话人嵌入以识别每个段落的说话人,最后将结果与WhisperX生成的时间戳关联,基于时间戳检测每个单词的说话人,并使用标点模型重新对齐以补偿小的时间偏移。
打开网站

whisper-diarization 最新流量情况

月总访问量

503747431

跳出率

37.31%

平均页面访问数

5.7

平均访问时长

00:06:44

whisper-diarization 访问量趋势

whisper-diarization 访问地理位置分布

whisper-diarization 流量来源

whisper-diarization 替代品