在国内“AI+社交”这条赛道上,Soul App即将利用AI注入了新的活力!

最近,Soul官方宣布其语音大模型再次升级,上线自研端到端全双工语音通话大模型。

这次升级带来最惊艳的效果是,可以让用户和虚拟人之间的语音通话就像和真人聊天一样自然流畅!

效果有多真实,大家可以先看看下面的视频感受下:

官方展示的“体验与AI实时通话”的示例

那么,Soul自研端到端语音通话大模型到底有什么特别之处呢?根据官方描述,其最大的亮点包括:

  • 具备超低交互延迟

  • 快速自动打断

  • 超真实声音表达

  • 情绪感知理解能力等

超低交互延迟能力意味着,你说话的那一瞬间,AI 就能立刻做出反应,没有任何的延迟,瞬间就能拉近你和 AI 之间的距离。想要和它进行真实的交流,根本不需要等待,简直就像在跟真人对话一样。

Soul 的语音大模型支持快速自动打断功能。也就是说,当你和 AI 交流的时候,如果你想插话,它完全能理解你的意思,轻松打断对方,这样的互动真是太有趣了!

最后,再加上超真实的声音表达和情绪感知理解能力,AI 不仅能听懂你的话,还能感知你的情绪,根据情绪给予适当的的回应。

结合官方展示的视频示例,如果这个功能之后全量上线,估计有一大波用户在Soul上体验的时候,可能会连真人和AI虚拟人都傻傻分不清楚。

Soul方面表示,目前其端到端语音通话大模型已应用于“异世界回响”实时通话场景(内测中),并将在后续拓展至AI苟蛋等多个AI陪伴、AI互动场景。

QQ20240905-115505.png

据了解,早在2020年,Soul已经启动了AIGC技术研发,专注于智能对话、语音技术、虚拟人等关键技术的研发,并把这些AI能力深度融入到社交场景中。

在用AI升级社交的过程中,Soul特别注重实现拟人化、自然化的情感陪伴体验。

为了给用户带来更好的情绪反馈和陪伴感,Soul技术团队一直在关注情绪理解和延迟问题。他们推出了自研的语音生成大模型、语音识别大模型、语音对话大模型、音乐生成大模型等,支持真实音色生成、语音DIY、多语言切换、多情感拟真人实时对话等功能,这些已经应用在了Soul的多个场景中,比如“AI苟蛋”、“狼人魅影”AI语音实时互动、“异世界回响”等。

Soul自研的端到端语音通话大模型上线了,意味着用户可以享受到更自然的人机交互体验。未来,Soul 还计划进一步推动多模态端到端大模型能力的建设,让人与 AI 的互动更加有趣、沉浸感更强。