字节、上海交大联合推全新语音模型LSLM 可边听边说

上海交通大学X-LANCE人工智能实验室与字节跳动联手打造的LSLM（Listen-Speak Language Model）全双工语言模型，让AI助手能够在对话中边说边听，实现真正的实时交互。

当你正与AI助手交谈时，突然想到一个重要问题。你不必等待它说完，可以直接打断并提出新的疑问。AI助手能够立即理解并作出回应，就像与真人对话一样自然流畅。这不再是科幻电影中的场景，而是已经成为现实。

LSLM的核心优势在于其"边说边听"的能力。这个创新模型不仅能在说话的同时倾听外界声音，还支持实时语音交互，即使在嘈杂的环境中也能正常工作。它巧妙地整合了听力和说话两个通道，可以同时处理语音输入和生成语音输出。

传统的语音语言模型（SLM）只能进行轮流对话，无法应对实际口语场景中的即时打断。LSLM的出现解决了这一难题，让AI与人类的对话更加自然。它采用了基于token的解码器仅文本到语音(TTS)系统，结合流式自监督学习(SSL)编码器，实现了实时的自回归生成和对话轮转换检测。

研究团队探索了早期融合、中期融合和晚期融合三种策略，其中中期融合在语音生成和实时交互之间取得了最佳平衡。通过命令基础FDM和声音基础FDM两种实验设置，LSLM展现出对噪声的强大抵抗力和对多样化指令的高度敏感性。

更令人惊喜的是，LSLM实现了双重通信能力，而对现有系统的影响微乎其微。这意味着它可以无缝集成到现有的AI系统中，大幅提升用户体验而不需要彻底重构整个框架。

LSLM的应用前景十分广阔。未来，无论是在家庭、办公室还是公共场所，对话系统都将能够更自然地与人类进行实时交流。这不仅将改变我们与机器交流的方式，更有可能重塑整个人机交互的格局。

在技术演示中，研究团队通过对比传统TTS与LSLM在清晰和嘈杂环境下的表现，生动展示了LSLM的优势。他们还通过图解阐明了语音语言模型从单工、半双工到全双工的演变过程，让人们更直观地理解这一技术突破的重要性。

随着LSLM技术的不断成熟，我们有理由期待，未来的AI助手将为用户带来更加丰富、流畅和人性化的交互体验。与AI进行自然、连贯的对话，可能很快就会像与朋友聊天一样轻松自如。

这项研究不仅在学术上具有重要意义，也为语音交互技术的商业应用开辟了新的可能性。LSLM的出现，标志着我们正在进入一个全新的AI交互时代，人机对话的界限将变得越来越模糊，技术与人性的融合将达到一个新的高度。

AI新闻资讯