Soul语音大模型重磅升级：实时端到端语音通话真人和AI虚拟人傻傻分不清楚！

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Sep 5, 2024

1.5k

在国内“AI+社交”这条赛道上，Soul App即将利用AI注入了新的活力!

最近，Soul官方宣布其语音大模型再次升级，上线自研端到端全双工语音通话大模型。

这次升级带来最惊艳的效果是，可以让用户和虚拟人之间的语音通话就像和真人聊天一样自然流畅!

效果有多真实，大家可以先看看下面的视频感受下:

官方展示的“体验与AI实时通话”的示例

那么，Soul自研端到端语音通话大模型到底有什么特别之处呢?根据官方描述，其最大的亮点包括:

具备超低交互延迟
快速自动打断
超真实声音表达
情绪感知理解能力等

超低交互延迟能力意味着，你说话的那一瞬间，AI 就能立刻做出反应，没有任何的延迟，瞬间就能拉近你和 AI 之间的距离。想要和它进行真实的交流，根本不需要等待，简直就像在跟真人对话一样。

Soul 的语音大模型支持快速自动打断功能。也就是说，当你和 AI 交流的时候，如果你想插话，它完全能理解你的意思，轻松打断对方，这样的互动真是太有趣了!

最后，再加上超真实的声音表达和情绪感知理解能力，AI 不仅能听懂你的话，还能感知你的情绪，根据情绪给予适当的的回应。

结合官方展示的视频示例，如果这个功能之后全量上线，估计有一大波用户在Soul上体验的时候，可能会连真人和AI虚拟人都傻傻分不清楚。

Soul方面表示，目前其端到端语音通话大模型已应用于“异世界回响”实时通话场景（内测中），并将在后续拓展至AI苟蛋等多个AI陪伴、AI互动场景。

据了解，早在2020年，Soul已经启动了AIGC技术研发，专注于智能对话、语音技术、虚拟人等关键技术的研发，并把这些AI能力深度融入到社交场景中。

在用AI升级社交的过程中，Soul特别注重实现拟人化、自然化的情感陪伴体验。

为了给用户带来更好的情绪反馈和陪伴感，Soul技术团队一直在关注情绪理解和延迟问题。他们推出了自研的语音生成大模型、语音识别大模型、语音对话大模型、音乐生成大模型等，支持真实音色生成、语音DIY、多语言切换、多情感拟真人实时对话等功能，这些已经应用在了Soul的多个场景中，比如“AI苟蛋”、“狼人魅影”AI语音实时互动、“异世界回响”等。

Soul自研的端到端语音通话大模型上线了，意味着用户可以享受到更自然的人机交互体验。未来，Soul 还计划进一步推动多模态端到端大模型能力的建设，让人与 AI 的互动更加有趣、沉浸感更强。

AI+社交 SoulApp 语音大模型全双工语音通话

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

百度文小言全面升级，推出多模型融合调度与新语音大模型

在刚刚结束的百度 AI DAY 上，百度文小言正式宣布了品牌焕新和功能升级的消息。此次升级不仅包括全新的视觉形象，更重要的是引入了多模型融合调度技术，这将极大增强其语音识别和图片问答的能力。文小言的多模型融合调度是本次升级的核心亮点。通过整合百度自研的文心 X1、文心4.5等模型，并引入了诸如 DeepSeek-R1和可灵等第三方优质模型，用户可以根据需求灵活选择使用最适合的模型。用户只需轻松点击 “自动模式”，系统就会智能选择最佳模型组合，显著提高响应速度与任务处

2025年3月31号 16:32

3.0k

豆包App推出新语音模式，抢先GPT-4o实现唱歌和角色扮演

2025年1月20日，豆包 App 正式发布了其最新的 “端到端” 语音大模型，并对实时语音通话功能进行了重要更新。这一进展标志着豆包在语音交互领域的又一次飞跃，超越了之前的 ASR（自动语音识别）、LLM(大语言模型)和 TTS(文生音频)的级联方案，将语音识别、理解和生成整合在同一个模型中。经过《智能涌现》的测试，新版豆包的最大亮点在于其具备了人类般的表达能力和情感输出，提升了对话的流畅度与智能水平。尤其是 “灵魂歌手” 和 “百变大咖” 模式，让豆包不仅能够进行唱歌，

2025年1月21号 9:38

3.9k

豆包发布实时语音大模型中文一流，双商在线

近日，豆包公司宣布推出其全新的实时语音大模型，号称在中文对话方面实现了 “断崖式领先”，标志着 AI 对话能力的显著提升。这一模型在豆包 App（版本号7.2.0新春版）中全量开放，为用户带来了更为丰富和真实的语音交流体验。据介绍，豆包的实时语音大模型实现了语音理解与生成的深度融合，形成了端到端的语音对话系统。这一技术的突破让模型在语音表现力、控制力以及情绪承接方面的表现非常出色，具备低时延和随时打断对话的功能，极大提升了用户的互动体验。官方表示，

2025年1月20号 16:39

4.2k

AI日报：Kimi发布多模态图片理解模型API；周鸿祎参演AI短剧开拍；MiniMax-01系列模型开源；星火同传语音大模型发布

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、月之暗面Kimi多模态图片理解模型API发布2025年1月15日，北京月之暗面科技有限公司正式发布了全新多模态图片理解模型moonshot-v1-vision-preview，该模型在原有moonshot-v1系列的基础上进一步增强了多模态能力，旨在帮助Kimi更好地理解世界。通过模块化设计，MiniCPM-o2.6集成了多种强大组件，支持实时处理和多语言功能。

2025年1月15号 15:28

1.5k

科大讯飞星火同传语音大模型发布：达到人类专家译员水平

今日，科大讯飞正式发布了其最新研发的星火同传语音大模型，标志着国内首个具备端到端语音同传能力的大模型正式面世。这一创新技术相较于讯飞此前的翻译技术，实现了全场景翻译效果的显著提升，并大幅缩短了端到端的响应时间。

2025年1月15号 11:00

2.7k

中国电信星辰大模型入选"国之重器"年度盘点，打造全国产化AI新标杆

在国务院国资委新闻中心发起的"十大国之重器"年度评选中，中国电信自主研发的星辰大模型凭借其突破性技术成果成功入围。作为国内首个全尺寸、全模态、全国产化的基础大模型体系，星辰大模型在语义、语音、视觉和多模态等领域展现出卓越实力。在语义领域，星辰大模型实现了重要突破。依托全国产万卡集群和训练框架，该模型在计算效率上达到英伟达同等算力的93%以上，训练时长占比更是高达98%。值得一提的是，该模型在国际权威评测榜单C-Eval中名列榜首，并在OpenCompass榜单上超

2024年12月26号 10:54

2.2k