Hume AI,这家专注于情感智能语音界面的初创公司,近日推出了一项名为 “语音控制” 的实验性功能。
这个新工具旨在帮助开发者和用户无需任何编码、AI 提示工程或音效设计技能,就能创造出个性化的 AI 声音。用户可以通过精确调节声音特征,轻松定制符合需求的声音。
这项新功能建立在公司之前推出的 “共情语音界面2”(EVI2)的基础上,EVI2增强了语音的自然性、情感反应能力和可定制性。与传统的语音克隆技术不同,Hume 的产品专注于提供独特且富有表现力的声音,以满足客户服务聊天机器人、数字助手、教师、导游以及无障碍功能等多种应用的需求。
语音控制功能允许开发者在十个不同的维度上调整声音特征,包括性别、果断性、兴奋度、自信心等。
“男性/女性:性别的发声,范围在更男性化和更女性化之间。
自信度:声音的坚定度,介于胆怯和大胆之间。
浮力:声音的密度,范围介于放气和浮力之间。
自信:声音的确定程度,介于害羞和自信之间。
热情:声音中的兴奋,介于平静和热情之间。
鼻音:声音的开放度,范围在清晰与鼻音之间。
放松度:声音中的压力,介于紧张与放松之间。
平滑度:声音的质感,介于平滑和断奏之间。
温和:声音背后的活力,介于温和与有力之间。
紧密度:声音的包容度,范围介于紧密和气喘吁吁之间。”
用户可以通过虚拟滑块实时微调这些属性,让定制变得简单明了。该功能目前在 Hume 的虚拟平台中提供,用户只需免费注册即可访问。
语音控制目前已推出测试版本,并与 Hume 的 Empathic Voice Interface (EVI) 集成,使其可用于广泛的应用程序。开发人员可以选择基本语音,调整其特性,并实时预览结果。此过程可确保会话间的可重复性和稳定性,这是客户服务机器人或虚拟助手等实时应用程序的关键功能。
EVI2的影响在语音控制功能上显而易见。早期型号引入了对话提示和多语言功能等功能,这些功能拓宽了语音 AI 应用的范围。例如,EVI2支持亚秒级响应时间,实现自然、即时的对话。它还允许在交互过程中动态调整说话风格,使其成为企业的多功能工具。
此举正是为了解决 AI 行业中对预设声音的依赖问题,许多品牌或应用往往难以找到满足其需求的声音。Hume 的目标是开发出情感细腻的语音 AI,推动行业进步。EVI2于2024年9月发布时就已经大幅提升了语音的延迟和成本效益,并为语音调节功能提供了安全的替代方案。
Hume 的研究驱动型方法在产品开发中占据核心地位,结合了跨文化的声音录音和情感调查数据。这一方法论构成了 EVI2和新推出的语音控制的基础,使其能够细致入微地捕捉人类对声音的感知。
目前,语音控制已在测试版中推出,并与 Hume 的共情语音界面(EVI)相结合,支持多种应用场景。开发者可以选择基础声音,调整其特性,并实时预览结果,确保在客户服务或虚拟助手等实时应用中的一致性和稳定性。
随着市场上竞争的加剧,Hume 的个性化语音和情感智能定位使其在语音 AI 领域中脱颖而出。未来,Hume 计划扩展语音控制的功能,增加可调节维度,优化声音质量,并增加基础声音的选择范围。
官方博客:https://www.hume.ai/blog/introducing-voice-control
划重点:
🔊 **Hume AI 推出了 “语音控制” 功能,用户可轻松创建个性化 AI 声音。**
🛠️ ** 该功能无须编码技能,用户可以通过滑块调整声音特征。**
🌐 **Hume 旨在通过个性化和情感智能的语音 AI 来满足多样化的应用需求。**