3月13日,Sesame公司推出其最新语音合成模型CSM,引发业界关注。据官方介绍,CSM采用端到端基于Transformer的多模态学习架构,能够理解上下文信息,生成自然且富有情感的语音,声音效果贴近真人,令人惊艳。
该模型支持实时语音生成,可处理文本和音频输入,用户还能通过调整参数控制语气、语调、节奏及情感等特性,展现高度灵活性。
CSM被认为是AI语音技术的重要突破。其语音自然度极高,甚至“无法分辨是人工合成还是真人”。有用户录制视频展示CSM几近无延迟的表现,称其为“体验过的最强模型”。此前,Sesame曾开源小版本CSM-1B,支持多轮对话生成连贯语音,获得广泛好评。
目前,CSM主要针对英语训练,表现优异,但在多语言支持上仍有限制。目前其不支持中文,但期待未来扩展。
Sesame表示将部分开源研究成果,社区开发者已在GitHub上热议其潜力。CSM不仅适用于对话式AI,还可能推动教育、娱乐等领域语音交互体验的革新。业内人士认为,CSM或将重塑AI语音助手标准,带来更自然的人机对话。