FunAudioLLM

自然交互的语音理解和生成基础模型

普通产品其他语音识别语音合成

FunAudioLLM是一个旨在增强人类与大型语言模型(Large Language Models, LLMs)之间自然语音交互的框架。它包含两个创新模型：SenseVoice负责高精度多语种语音识别、情绪识别和音频事件检测；CosyVoice负责自然语音生成，支持多语种、音色和情绪控制。SenseVoice支持超过50种语言，具有极低的延迟；CosyVoice擅长多语种语音生成、零样本上下文生成、跨语言语音克隆和指令跟随能力。相关模型已在Modelscope和Huggingface上开源，并在GitHub上发布了相应的训练、推理和微调代码。

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图

FunAudioLLM

FunAudioLLM 最新流量情况

FunAudioLLM 访问量趋势

FunAudioLLM 访问地理位置分布

FunAudioLLM 流量来源

FunAudioLLM 替代品

FunAudioLLM — 自然交互的语音理解和生成基础模型

GLM-4-Voice — 端到端中英语音对话模型

Deepgram Voice Agent API — 实时对话式人工智能，一键式API接入。

讯飞虚拟人 — 全栈式虚拟人多场景应用服务

Mini-Omni — 开源多模态大型语言模型，支持实时语音输入和流式音频输出。

speech-to-speech — 开源的语音到语音转换模块

SenseVoice — 多语种语音理解模型，提供高精度语音识别与情感识别。

Azure 认知服务语音 — 让应用通过语音与文本的转换实现智能交互。

sherpa-onnx — 支持多种语音识别和语音合成功能的开源项目

StreamSpeech — 实时语音翻译，跨语言沟通的桥梁。

讯飞A.I.智能客服解决方案 — 基于科大讯飞语音技术，实现智能客服的多渠道解决方案。

Any GPT — 多模态大型语言模型

VideoDubber — AI 视频翻译、语音合成

讯飞开放平台 — 基于语音交互的人工智能开放平台

What Would They Say — 智能语言助手，让沟通更简单

AI Prompt Randomizer — 智能语音助手，简化生活

Speechllect — 实时AI语音转文字/文字转语音解决方案

Podcast — 让你的声音变成语音助手

TTSLabs — 在线语音合成与语音识别服务

Neon AI — 易用的对话式人工智能，满足企业和家庭需求

OpenAI.fm — 开发者可互动体验 OpenAI API 中的新语音模型gpt-4o-transcribe， gpt-4o-mini-transcribe and gpt-4o-mini-tts。

Orpheus TTS — 一个开源文本转语音系统，致力于实现人类语音的自然化。

CSM 1B — CSM 1B 是一个由 Sesame 开发的文本到语音生成模型，可生成高质量的音频。

Sesame CSM — 一个用于生成对话式语音的模型，支持从文本和音频输入生成高质量的语音。

Sesame AI — Sesame AI 是一款先进的语音合成平台，能够生成自然对话式语音并具备情感智能。

Spark-TTS — Spark-TTS 是一种基于大语言模型的高效单流解耦语音合成模型。

音刻 — 音刻转录是一款快速、精准、丝滑的音视频转录工具。

DuRT — DuRT 是一款 macOS 上的实时语音识别和翻译软件，致力于提供高效、准确的语音处理服务。

Llasa — 基于Llama框架的TTS基础模型，兼容16万小时标记化语音数据。

Octave TTS — Octave TTS 是首个能够理解文本含义的语音合成模型，能够生成富有情感和风格的语音。