吉利汽车智能语音新突破：自研大模型超越业界标杆

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年9月24号 10:14

194

吉利汽车近日在语音合成领域取得重大突破，其自主研发的HAM-TTS大模型性能超越了行业标杆VALL-E，引起业界广泛关注。这款名为"星睿"的AI大模型在发音准确性、自然度和说话人相似度等关键指标上均实现了显著提升。

HAM-TTS模型采用基于token的零样本文字转语音分层声学建模技术，在智能座舱中大幅提升了用户交互体验。在相同的4亿参数条件下，HAM-TTS模型的字符错误率比VALL-E下降了1.5%;而在8亿参数的完全体上，字符错误率更是直降2.3%。在风格一致性、音调一致性和整体得分上，HAM-TTS模型都取得了10%的显著提升。

星睿模型的优势不仅体现在性能指标上，其实用性也令人印象深刻。它能够在虚拟形象联动、语音导航、新闻播报等多种场景中保持说话人的声音稳定性，并根据情境智能调节语气、语调、停顿和情感。更值得一提的是，该模型可以在不同语种间无缝切换，包括方言和外语，且只需3秒钟的样本输入就能完成声音复刻，远优于业界通常需要的10秒以上。

吉利团队通过引入分层声学建模，创新性地提高了模型性能。他们解决了发音不准的问题，并引入隐空间变量序列预测器和文本对齐器，使文本和声音的匹配更加精准，从而使合成语音更加自然流畅。

这一突破不仅展示了吉利在智能化技术方面的研发实力，也反映了其在AI领域的雄心。吉利的星睿AI大模型体系已扩展到多模态大模型、语言大模型等多个方向，为智能汽车技术奠定了基础。同时，吉利的云端总算力也从去年的81亿亿次/秒提升至102亿亿次/秒，显示出其在技术上的持续投入。

随着电动化的初步成功，吉利在智能化领域的这一突破，为汽车行业的未来发展提供了新的思路和可能性。这不仅重新定义了我们对传统汽车制造商的认知，也预示着智能化将成为未来汽车行业竞争的关键领域。

论文地址：https://arxiv.org/pdf/2403.05989

效果最佳！阶跃星辰开源Step-Video-T2V 视频生成模型

今日，阶跃星辰与吉利汽车集团宣布，联合开源两款阶跃Step系列多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音模型。其中，阶跃Step-Video-T2V视频生成模型在参数量和性能上均处于全球领先水平。该模型拥有300亿参数量，能够直接生成204帧、540P分辨率的高质量视频，确保生成内容信息密度高、一致性强。评测结果显示，Step-Video-T2V在指令遵循、运动平滑性、物理合理性、美感度等方面均表现出色，显著超越市面上既有的最佳开源视频模型。

配音员危！微软VALL-E 2模型语音克隆达到配音员水准

微软近期发布了一款零样本文本到语音（TTS）模型VALLE-2，该成果在技术界引发热议，被认为是TTS领域的里程碑。VALLE-2的创新之处在于其零样本学习能力，仅需一小段陌生语音样本，便能模仿声音说任意文本，实现了惊人的即时模仿和编码器分组。它还改进了重复感知采样，提高解码稳定性，并简化了数据需求。在主观评分和客观指标的测试中，VALLE-2超越了前代模型VALLE，几乎达到人类语音水平。然而，强大的语音模仿能力也引发了对Deepfake技术滥用的担忧，特别是关于伦理考量和潜在风险，如模型对非英美口音处理能力及计算效率的改进空间。当前，微软仅将其作为研究项目，并强调了合成语音检测和授权机制的重要性。未来在语音助手、内容创作等领域的应用值得期待，同时需要关注技术的伦理使用与风险防控。更多关于VALLE-2的信息可访问项目页面：Microsoft官网。

AI新闻资讯

吉利汽车智能语音新突破：自研大模型超越业界标杆

AIbase基地

相关AI新闻推荐

效果最佳！阶跃星辰开源Step-Video-T2V 视频生成模型

配音员危！微软VALL-E 2模型语音克隆达到配音员水准