今日,字节跳动旗下云服务平台火山引擎宣布,豆包大模型已支持实时语音通话新功能。

据悉,火山引擎提供的对话式 AI 实时交互解决方案,结合了火山方舟大模型服务平台和豆包的语音识别与合成模型,简化了语音到文本和文本到语音的转换过程。这一方案实现了高效的语音数据采集、处理和传输,提供了卓越的智能对话和自然语言处理能力。

字节跳动抖音豆包大模型

火山引擎 RTC 基于音频3A 处理技术,有效解决了“双讲”现象,确保语音识别的准确性和实时性。同时,利用 WebRTC 传输网络,实现了全球范围内的超低延迟、稳定可靠的实时音视频传输服务。

火山引擎还提供了灵活、多样化的接入方案,包括自集成方案和基于 WebRTC 标准协议的传输网络方案,以满足不同企业的具体需求。

此外,火山引擎的大模型多模态实时交互服务已为国内一些头部 AI 虚拟人物聊天应用提供了 AI 实时语音能力,带来了全新的互动体验。火山引擎将持续提供高质量的音视频能力和 AI 能力,助力企业在 AI 实时音视频领域实现创新。