上海交通大学X-LANCE人工智能实验室与字节跳动联手打造的LSLM(Listen-Speak Language Model)全双工语言模型,让AI助手能够在对话中边说边听,实现真正的实时交互。

当你正与AI助手交谈时,突然想到一个重要问题。你不必等待它说完,可以直接打断并提出新的疑问。AI助手能够立即理解并作出回应,就像与真人对话一样自然流畅。这不再是科幻电影中的场景,而是已经成为现实。

image.png

LSLM的核心优势在于其"边说边听"的能力。这个创新模型不仅能在说话的同时倾听外界声音,还支持实时语音交互,即使在嘈杂的环境中也能正常工作。它巧妙地整合了听力和说话两个通道,可以同时处理语音输入和生成语音输出。

传统的语音语言模型(SLM)只能进行轮流对话,无法应对实际口语场景中的即时打断。LSLM的出现解决了这一难题,让AI与人类的对话更加自然。它采用了基于token的解码器仅文本到语音(TTS)系统,结合流式自监督学习(SSL)编码器,实现了实时的自回归生成和对话轮转换检测。

研究团队探索了早期融合、中期融合和晚期融合三种策略,其中中期融合在语音生成和实时交互之间取得了最佳平衡。通过命令基础FDM和声音基础FDM两种实验设置,LSLM展现出对噪声的强大抵抗力和对多样化指令的高度敏感性。

更令人惊喜的是,LSLM实现了双重通信能力,而对现有系统的影响微乎其微。这意味着它可以无缝集成到现有的AI系统中,大幅提升用户体验而不需要彻底重构整个框架。

LSLM的应用前景十分广阔。未来,无论是在家庭、办公室还是公共场所,对话系统都将能够更自然地与人类进行实时交流。这不仅将改变我们与机器交流的方式,更有可能重塑整个人机交互的格局。

在技术演示中,研究团队通过对比传统TTS与LSLM在清晰和嘈杂环境下的表现,生动展示了LSLM的优势。他们还通过图解阐明了语音语言模型从单工、半双工到全双工的演变过程,让人们更直观地理解这一技术突破的重要性。

随着LSLM技术的不断成熟,我们有理由期待,未来的AI助手将为用户带来更加丰富、流畅和人性化的交互体验。与AI进行自然、连贯的对话,可能很快就会像与朋友聊天一样轻松自如。

这项研究不仅在学术上具有重要意义,也为语音交互技术的商业应用开辟了新的可能性。LSLM的出现,标志着我们正在进入一个全新的AI交互时代,人机对话的界限将变得越来越模糊,技术与人性的融合将达到一个新的高度。

项目地址:https://top.aibase.com/tool/lslm