FunAudioLLM
自然交互的语音理解和生成基础模型
普通产品其他语音识别语音合成
FunAudioLLM是一个旨在增强人类与大型语言模型(Large Language Models, LLMs)之间自然语音交互的框架。它包含两个创新模型:SenseVoice负责高精度多语种语音识别、情绪识别和音频事件检测;CosyVoice负责自然语音生成,支持多语种、音色和情绪控制。SenseVoice支持超过50种语言,具有极低的延迟;CosyVoice擅长多语种语音生成、零样本上下文生成、跨语言语音克隆和指令跟随能力。相关模型已在Modelscope和Huggingface上开源,并在GitHub上发布了相应的训练、推理和微调代码。
FunAudioLLM 最新流量情况
月总访问量
17142
跳出率
61.20%
平均页面访问数
1.4
平均访问时长
00:00:50