全新开源音频模型Hertz-Dev:超低延迟，实现AI实时对话

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年11月4号 14:52

399

在当今科技的浪潮中，对话式人工智能（AI）已经成为我们生活中的重要组成部分。然而，快速、高效和实时的互动仍然是一个不小的挑战。尤其是延迟问题，指的是输入与响应之间的时间差，常常让客服机器人和虚拟助手的体验变得缓慢，影响用户的使用感受。

为了填补这一空白，Standard Intelligence Lab 最近推出了 Hertz-Dev，一个开源的8.5亿参数音频模型，旨在实现实时对话 AI 的飞跃。

Hertz-Dev 的最大亮点是其出色的性能指标，理论延迟仅为80毫秒，实际使用中的延迟为120毫秒，所有这一切都只需一块 NVIDIA RTX4090显卡。这个高效的模型使得开发者和研究人员无需庞大的基础设施，就能体验到先进的 AI 技术，真正让复杂的音频建模技术变得触手可及。

值得一提的是，Hertz-Dev 的架构采用了多种新颖的优化技术，确保了在降低计算负担的同时，输出质量依然保持高水平。它的运行效率使得独立开发者、初创企业和大型机构都能够在控制成本的同时，实现高性能的应用。这个模型的表现堪称革命性，它使得人与机器之间的互动更为自然，几乎可以与人与人之间的交流相媲美。

实时音频处理有着广泛的应用前景，包括客户支持自动化、互动 AI 伙伴、以及为有特殊需求的用户提供便利的辅助工具。Hertz-Dev 通过将延迟控制在120毫秒以内，使得互动体验几乎不可察觉，提升了 AI 的交互性。初步测试表明，与之前的开源模型相比，Hertz-Dev 在响应时间上可减少多达40%。这种灵活性使得它适用于多种场景，从智能家居的语音控制到客户服务的自动化。

Standard Intelligence Lab 推出 Hertz-Dev，无疑为实时对话 AI 的未来带来了新的希望。它不仅是一个高参数、高性能的开源模型，更是让更多开发者和研究者有机会探索对话 AI 的无限可能。随着 Hertz-Dev 的广泛应用，我们可以期待一个更加快速、便捷和人性化的人工智能时代的到来。

项目入口:https://github.com/Standard-Intelligence/hertz-dev

详情:https://si.inc/hertz-dev/

划重点:
🖥️ Hertz-Dev 是一个开源的8.5亿参数音频模型，理论延迟仅为80毫秒，实际延迟为120毫秒。
💡 这个模型允许独立开发者和研究人员在不需要庞大硬件支持的情况下，轻松使用先进的实时对话 AI 技术。
🚀 Hertz-Dev 的广泛应用将推动人工智能在客户支持、智能家居等多个领域的发展，让人与机器的互动更为自然。

三星宣布Galaxy S25新AI功能:智能通知、优先对话等

根据最新报道，三星即将推出的 Galaxy S25 将是一款更加以人工智能为核心的智能手机。这款手机不仅在外观设计上有所创新，更重要的是其内置的 Bixby虚拟助手和 Galaxy AI 将大幅提升用户体验，特别是在通知系统方面，预计会带来三大 AI驱动的功能改进。三星的 Galaxy S25 将通过人工智能技术，为用户带来三大通知系统的改进，具体包括:优先对话:人工智能将智能识别哪些对话更为重要，并将其推送到通知列表的顶部，以确保用户不会错过重要信息。汇总通知:AI会自动整理和汇总相似类型

梅赛德斯-奔驰与谷歌联手推出智能汽车语音助手MBUX

在2024年消费电子展（CES）上，梅赛德斯 - 奔驰宣布了与谷歌合作的全新汽车虚拟助手。这款助手基于谷歌云最新推出的汽车 AI智能体平台，能够在用户驾驶过程中 “继续对话并参考信息”。首款搭载该助手的车型是全新的梅赛德斯 CLA，这款车配备了下一代 MB.OS 操作系统和升级版的 MBUX 虚拟助手。目前，梅赛德斯的 MBUX 语音助手系统可以通过 “嘿，梅赛德斯” 触发约20个语音指令。而此次升级后，MBUX 助手将借助 OpenAI 的 ChatGPT 和微软 Bing 的结果，进一步增强其智能性，尽管目前仍未形成

巴西初创企业 Carecode 成功融资 430 万美元，推动医疗行业 AI 客户服务发展

近日，巴西初创企业 Carecode 宣布成功完成了一轮430万美元的前种子融资，这一融资将用于开发其基于对话式人工智能（AI）的客户服务系统。该项目旨在改善医疗行业的客户体验，帮助医院和医疗机构更高效地与患者沟通。随着人工智能技术的快速发展，Carecode 的创新服务有望在医疗行业中发挥重要作用。图源备注：图片由AI生成，图片授权服务商MidjourneyCarecode 的核心理念是通过 AI 驱动的对话平台，为患者提供实时、个性化的服务。该平台不仅能够回答患者常见问题，还能协助预约、提供

谷歌推定制化聊天机器人 “Gem”，让你创建专属AI虚拟助手

谷歌正式宣布，Gemini订阅用户可以创建自定义聊天机器人“Gem”，根据个人需求，这些机器人可作为健身伙伴、烹饪助手、写作编辑等。用户只需描述指令，就能赋予机器人独特人格和专长。谷歌在5月I/O大会上首次展示此功能，如创建知识渊博、友好且随意的Gem，帮助规划花园。现成的Gem包括学习教练、创意头脑风暴、职业指导、编程伙伴和编辑器等。此功能适用于Gemini Advanced、Gemini Business和Gemini Enterprise用户，支持移动和桌面设备，覆盖150多个国家和地区，支持多种语言。这一新功能旨在与OpenAI竞争，允许用户创建和共享自定义聊天机器人，提供更多选择和灵活性。

AI新闻资讯

全新开源音频模型Hertz-Dev:超低延迟，实现AI实时对话

AIbase基地

相关AI新闻推荐

三星宣布Galaxy S25新AI功能:智能通知、优先对话等

​梅赛德斯-奔驰与谷歌联手推出智能汽车语音助手MBUX

巴西初创企业 Carecode 成功融资 430 万美元，推动医疗行业 AI 客户服务发展

​谷歌推定制化聊天机器人 “Gem”，让你创建专属AI虚拟助手

梅赛德斯-奔驰与谷歌联手推出智能汽车语音助手MBUX

谷歌推定制化聊天机器人 “Gem”，让你创建专属AI虚拟助手