AI终于迈过这道槛！Livekit 开源模型精准识别“你是否说完”！

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Dec 23, 2024

639

在人机对话的世界里，最让人头疼的莫过于——“你到底说完没”! 这句话看似简单，却成了无数语音助手和客服机器人迈不过去的一道坎儿。你是不是也经常遇到这种情况:你只是停顿了一下，想思考接下来要说什么，结果 AI 就迫不及待地蹦出来回应;或者你明明已经讲完了，AI 却还在傻傻地等着，直到你忍不住再说一句“我讲完了”它才反应过来，这体验简直让人抓狂。

这并非 AI 故意捣乱，而是因为它们在判断 “轮次结束”（End of Turn， EOT）时，就像一个“睁眼瞎”，只能听到有没有声音，却搞不清你到底有没有说完。传统的方法主要依赖语音活动检测(VAD)，就像一个 “声控开关”，只关注有没有语音信号，只要没声音就判定你说完了，这能不被停顿和背景噪声给迷惑吗?简直太“单纯”了!

不过，最近有一家叫 Livekit 的公司，他们看不下去了，决定要给 AI 装上一颗更聪明的“大脑”。他们开发了一个开源的精准语音轮次检测模型，这个模型就像一个真正的“读心术”高手，能够精准地判断你到底有没有说完话。这可不是简单的“声控开关”，而是一个能够理解你说话意图的“智能助手”!

Livekit 的这个模型，厉害之处就在于它不是单纯地依赖“有没有声音”，而是把 Transformer 模型和传统的语音活动检测（VAD）结合起来。这就好比给 AI 配上了一个“超级大脑”和一个“顺风耳”。“顺风耳”负责监听有没有声音，而“超级大脑”则负责分析这些声音的语义，理解你的话是否完整，有没有未尽之意。这二者强强联合，才能真正实现精准的“轮次结束检测”。

这个模型能干啥?它可以让语音助手、客服机器人这些 AI 伙伴们更准确地判断你是否已经说完，然后才开始回应你，这无疑会大大提高人机对话的流畅度和自然度。以后和 AI 聊天，再也不用担心被它“抢话”或者“装聋作哑”了!

为了证明自己的实力，Livekit 也亮出了他们的测试结果:他们的新模型，能够让 AI 的“错误打断”减少85%! 这意味着，AI 变得更加自然和不容易误判，人机对话也变得更加顺畅愉快了。想想看，以后你打电话给客服，再也不用被 AI 的机械回复给弄得心烦意乱，而是能像跟真人聊天一样自如，这体验，简直不要太棒!

而且，这个模型尤其适合那些需要人机对话的场景，比如语音客服、智能问答机器人等等。Livekit 还特别贴心地展示了一段演示视频，视频中的 AI 代理，在接收到用户的提问后，会耐心等待用户说完所有信息，然后再给出相应的回答。这就像一个真正理解你需求的“知心人”，不会在你还没说完的时候就“插嘴”，也不会在你已经说完的时候还“呆若木鸡”。

当然，这个模型目前还是在开源阶段，还有很大的进步空间。但我们有理由相信，随着技术的不断发展，未来的人机对话一定会更加自然、流畅和智能。也许有一天，我们真的会忘记和自己对话的，是一个冰冷的机器，而是一个真正懂你的“AI伙伴”。

项目地址：https://github.com/livekit/agents/tree/main/livekit-plugins/livekit-plugins-turn-detector

人机对话语音助手客服机器人语音活动检测

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

Perplexity 推出全新 iOS AI 语音助手

近日，AI 技术公司 Perplexity 在官方渠道上宣布推出一款全新的 AI 语音助手，专为 iOS 平台用户设计。这款助手旨在为用户提供与苹果原生的 Siri 相似的使用体验，力求在生活和工作中带来更多便利。Perplexity 的 AI 助手具备强大的功能，用户可以通过语音指令轻松实现网页浏览和多款应用的操作。在发布的演示视频中，AI 助手展示了多项实用功能，包括自动地图搜索、餐厅预订、草拟电子邮件、设置提醒以及媒体播放等。这些功能使得用户在繁忙的日常生活中能够更加高效地处理事务。使用

2025年4月24号 17:19

9.6k

Perplexity语音助手全新升级，智能交互再创新高

Perplexity AI在其iOS应用中推出全新语音助手功能，进一步增强了AI助手的实用性与交互体验。据AIbase了解，新功能支持设置闹钟、查找路线、发送消息、预订餐厅等多项任务，结合强大的实时搜索与多应用集成，为用户带来无缝的智能生活体验。相关更新已在App Store上线，社区反响热烈，标志着Perplexity向综合AI助手领域的强势迈进。核心功能:多任务处理与实时交互Perplexity语音助手通过多模态输入与应用联动，显著提升了日常任务的自动化能力。AIbase梳理了其主要功能: 语音驱动任务执行:用

2025年4月24号 10:43

7.5k

Anthropic即将推出Claude AI语音助手，挑战ChatGPT

据彭博社报道，人工智能公司 Anthropic 正在积极开发其聊天机器人 Claude 的新功能 —— 语音助手，预计本月内将正式发布。这一新功能将使 Claude AI 与 OpenAI 的 ChatGPT 在交互体验上展开竞争，丰富用户与 AI 的交流方式。距离 OpenAI 推出类似功能已近一年，Claude 的语音模式显然是对这一市场需求的及时回应。新语音助手将首先在 Claude 的 iOS 应用上推出，并可能在其他平台上也随之上线。根据目前掌握的信息，用户将能够选择三种不同的语音风格:轻快（Airy）、温和(Mellow)以及具有英国口音的顺

2025年4月17号 9:11

1.5k

OpenAI 更新语音助手功能，让对话更自然流畅、减少打断频率

OpenAI 于本周一发布了其高级语音模式的更新，该功能允许用户与 ChatGPT 进行实时对话。更新后的语音助手在交流中表现得更加人性化，并且减少了对用户的打断频率。OpenAI 的后期培训研究员 Manuka Stratta 通过一段视频在公司官方社交媒体渠道上公布了这一消息。此次更新旨在解决 AI 语音助手常见的问题，即在用户思考或深呼吸时频繁打断。现在，所有的 ChatGPT 免费用户都可以体验到新版本的高级语音模式，这一版本允许用户在与 AI 助手对话时进行停顿而不被打断。同时，付费用户，包括

2025年3月25号 9:44

2.2k

苹果AI大地震:库克换帅，Siri能否迎来新生?

苹果公司近日罕见地进行高管层重组，以重振其停滞不前的AI项目。首席执行官蒂姆·库克对AI部门负责人约翰·贾安纳皮尼失去信心，转而任命Vision Pro负责人迈克·洛克威尔接管Siri语音助手业务。此次调整凸显了苹果在AI领域落后于竞争对手的紧迫感。洛克威尔将直接向软件主管克雷格·费德里希汇报，使Siri业务完全脱离贾安纳皮尼的管辖范围。原由洛克威尔负责的Vision Pro团队将由硬件工程师保罗·米德接任。贾安纳皮尼虽然保留AI研究职责，但权力被进一步分散，暗示其影响力下降。彭博

2025年3月21号 9:32

2.0k

谷歌宣布停用经典 Google Assistant，用户将迁移至新助手 Gemini

谷歌公司日前发布公告，正式宣布将逐步停止经典版 Google Assistant 的服务，并计划将用户迁移至其新推出的 AI 助手 Gemini。这一决策标志着谷歌在语音助手领域迈出了重要的一步，预计将在未来几个月内完成迁移工作，并计划于2025年年底前在主流移动设备上全面停用经典版本。Google Assistant 自2016年随初代 Pixel 手机推出以来，一直致力于通过自然语言处理和语音识别技术来帮助用户控制智能家居、播放媒体及使用第三方应用。其初衷是成为 “全球最贴心的数字助手”，甚至能够帮助用户完

2025年3月15号 9:52

3.1k

亚马逊推出升级版Alexa+ 能读懂和总结长文档

在亚马逊年度设备与服务活动上，亚马逊正式推出了其增强版语音助手 Alexa+。这一新版本不仅提升了语音交互体验，还融入了生成式人工智能技术，让用户与 Alexa 之间的互动更加智能和便捷。在活动中，亚马逊演示了如何将文档分享给 Alexa+，使其能够提取关键信息并回答关于这些文档的问题。Alexa 的项目主管 Mara Segal 展示了几个实际应用场景。比如，她询问 Alexa+:“奶奶的 zucchini 面包食谱需要多少油?”Alexa + 成功从上传的食谱中提取了答案，显示出其处理信息的高效能力。更为复杂的应

2025年2月27号 13:54

1.1k

vivo “蓝心小 V” 推送新版本，集成 DeepSeek 大模型能力，开启智能深度思考

近日，vivo 公司宣布其 “蓝心小 V” 语音助手进行了5.2.1.22版本的灰度更新，这次更新备受用户期待，新增了对 DeepSeek 大模型能力的支持。这一功能的加入，将使得 “小 V” 能够提供更为智能化的深度思考能力，帮助用户更好地处理信息。根据用户反馈，开启深度思考（R1）功能后，“蓝心小 V” 可以根据用户的输入指令，进行更为全面和深入的思考，提供更加智能化的解答。这一改进不仅提高了助手的实用性，也大幅增强了与用户的互动体验。早前，vivo 的浏览器也已上线了 DeepSeek 模型

2025年2月25号 11:06

3.0k

亚马逊全力推进 Alexa 智能助手升级，挑战技术瓶颈

亚马逊公司正在全力推进其语音助手 Alexa 的升级，计划将其 “脑部” 更换为更先进的生成式人工智能技术。然而，这一重大的技术转型正面临着一系列延迟和挑战，导致亚马逊在竞争中处于紧张状态。注：图片来自官方截图据悉，亚马逊一直在积极开发新的 AI 功能，以提升 Alexa 的语音识别和响应能力。这一升级旨在让 Alexa 能够更自然地与用户进行互动，提供更个性化和精准的服务。随着技术的不断进步，消费者对智能助手的期望也越来越高，亚马逊希望通过此次升级来满足市场需求并

2025年1月14号 14:36

1.3k

AI语音厂商思必驰完成5亿元融资

近日，人工智能企业思必驰宣布完成新一轮融资，金额达到5亿元人民币。这一轮融资的参与方包括知名产业基金、国资平台和私募基金等多个投资机构。这笔资金的注入，将进一步推动思必驰在智能终端和行业应用上的快速发展。图源备注：图片由AI生成，图片授权服务商Midjourney据了解，此次融资的成功主要得益于公司在端侧应用场景的规模化商业能力，以及在大模型人机对话技术上的持续创新。公司已经制定了 “云 + 芯” 的战略，计划在未来加速大模型（DFM-2）及全链路对话技术的落

2025年1月14号 13:43

1.3k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图