类型 :
- 新闻资讯
- 产品应用
- 变现案例
- AI教程
2024-09-24 10:14:10.AIbase.11.9k
吉利汽车智能语音新突破:自研大模型超越业界标杆
吉利汽车近日在语音合成领域取得重大突破,其自主研发的HAM-TTS大模型性能超越了行业标杆VALL-E,引起业界广泛关注。这款名为"星睿"的AI大模型在发音准确性、自然度和说话人相似度等关键指标上均实现了显著提升。HAM-TTS模型采用基于token的零样本文字转语音分层声学建模技术,在智能座舱中大幅提升了用户交互体验。在相同的4亿参数条件下,HAM-TTS模型的字符错误率比VALL-E下降了1.5%;而在8亿参数的完全体上,字符错误率更是直降2.3%。在风格一致性、音调一致性和整体得分上,HAM-TTS模型
2024-07-24 14:37:12.AIbase.10.5k
配音员危!微软VALL-E 2模型语音克隆达到配音员水准
微软近期发布了一款零样本文本到语音(TTS)模型VALLE-2,该成果在技术界引发热议,被认为是TTS领域的里程碑。VALLE-2的创新之处在于其零样本学习能力,仅需一小段陌生语音样本,便能模仿声音说任意文本,实现了惊人的即时模仿和编码器分组。它还改进了重复感知采样,提高解码稳定性,并简化了数据需求。在主观评分和客观指标的测试中,VALLE-2超越了前代模型VALLE,几乎达到人类语音水平。然而,强大的语音模仿能力也引发了对Deepfake技术滥用的担忧,特别是关于伦理考量和潜在风险,如模型对非英美口音处理能力及计算效率的改进空间。当前,微软仅将其作为研究项目,并强调了合成语音检测和授权机制的重要性。未来在语音助手、内容创作等领域的应用值得期待,同时需要关注技术的伦理使用与风险防控。更多关于VALLE-2的信息可访问项目页面:Microsoft官网。