whisper-diarization

基于OpenAI Whisper的自动语音识别与说话人分割

普通产品编程语音识别说话人分割

whisper-diarization是一个结合了Whisper自动语音识别(ASR)能力、声音活动检测(VAD)和说话人嵌入技术的开源项目。它通过提取音频中的声音部分来提高说话人嵌入的准确性，然后使用Whisper生成转录文本，并通过WhisperX校正时间戳和对齐，以减少由于时间偏移导致的分割错误。接着，使用MarbleNet进行VAD和分割以排除静音，TitaNet用于提取说话人嵌入以识别每个段落的说话人，最后将结果与WhisperX生成的时间戳关联，基于时间戳检测每个单词的说话人，并使用标点模型重新对齐以补偿小的时间偏移。

Best AI Websites & Tools

whisper-diarization

whisper-diarization 最新流量情况

whisper-diarization 访问量趋势

whisper-diarization 访问地理位置分布

whisper-diarization 流量来源

whisper-diarization 替代品

Reverb — 开源的语音识别和说话人分割模型推理代码

FireRedASR-AED-L — 开源工业级自动语音识别模型，支持普通话、方言和英语，性能卓越。

FireRedASR — 开源的工业级普通话自动语音识别模型，支持多种应用场景。

Bulletpen — 将口语转化为优雅文字的AI写作工具，让写作变得轻松自然。

Whisper Turbo.online — Whisper Turbo 是一款免费在线快速准确的语音识别工具。

RealtimeSTT — 一个具有先进语音活动检测、唤醒词激活和即时转录功能的稳健、高效、低延迟的语音到文本库。

xiaozhi-esp32 — 基于ESP32的AI聊天机器人项目，可实现多语言对话与声纹识别

通义浏览器插件 — 全能AI助手，提供语音识别、字幕翻译、文档速读等功能

Robo Blogger — 将语音转换为博客文章的助手

Moonshine Web — 实时浏览器端语音识别应用

OmniAudio-2.6B — 世界上最快的边缘部署音频语言模型

Megrez-3B-Omni — 端侧全模态理解开源模型

Shortcut by Poised — 语音驱动的AI助手，提升工作效率。

Coval — AI代理测试和评估平台

whisper-ner-v1 — 联合语音转录和实体识别的先进模型

ultravox-v0_4_1-mistral-nemo — 多模态语音大型语言模型

ultravox-v0_4_1-llama-3_1-70b — 多模态语音大型语言模型

ultravox-v0_4_1-llama-3_1-8b — 多模态语音大型语言模型

Ultravox.ai — 下一代语音AI，打造自然沟通的AI语音代理。

卡卡字幕助手 — 基于LLM的智能字幕助手，一键生成高质量视频字幕

Najva — Najva：您的AI驱动的Mac语音助手，将语音快速转换为文本。

hertz-dev — 开源的全双工音频生成基础模型

Transcribro — Android平台上的私有、设备端语音识别键盘和文字服务

Universal-2 — 下一代语音AI，提供卓越的音频数据处理能力。

GLM-4-Voice — 端到端中英语音对话模型

Whispo — AI驱动的语音听写工具

DiariZen — 一个用于说话人分割的工具包

Spirit LM — 多模态语言模型，融合文本和语音

FunASR — 功能强大的语音离线文件转写服务