在人工智能的世界里,大型语言模型(LLM)已经成为推动自然语言处理(NLP)任务的关键力量。然而,要让这些模型真正理解并生成跨模态内容,如语音和文本,我们还有很长的路要走。复旦大学的研究团队在论文"SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities"中提出了一种创新的解决方案——SpeechGPT。
SpeechGPT是一种新型的大型语言模型,它不仅能够理解语音和文本,还能够在这两者之间自如转换。这项技术的核心在于将连续的语音信号离散化,使其能够与文本模态统一,从而让模型具备感知和生成语音的能力。
简单来说就是它能够感知和表达情感,并根据上下文和人类指令提供多种风格的语音响应。无论是说唱、戏剧、机器人、搞笑还是低语,SpeechGPT都能够根据需要生成相应风格的语音,这得益于其超过10万小时的学术和野外收集的语音数据,这些数据涵盖了丰富的语音场景和风格。
为了训练SpeechGPT,研究团队采用了一个三阶段的训练策略:
模态适应预训练:在这个阶段,模型通过大量未标记的语音数据进行训练,以预测下一个离散单元,从而适应语音模态。
跨模态指令微调:利用SpeechInstruct数据集,该数据集包含多种任务的指令,模型在这个阶段学习如何理解和执行跨模态的指令。
模态链指令微调:在这个阶段,模型进一步微调,以优化模态间的转换能力。
为了支持SpeechGPT的训练,研究团队构建了首个大规模跨模态语音指令数据集SpeechInstruct。这个数据集包含跨模态指令数据和模态链指令数据,覆盖了多种任务类型。
实验结果显示,SpeechGPT在文本任务、跨模态任务和口语对话任务上都展现出了强大的能力。它能够准确理解和执行各种指令,无论是将语音转录为文本,还是将文本转换为语音,或是进行口语对话。
值得注意的是,尽管SpeechGPT展现了卓越的能力,它在语音理解的噪声鲁棒性和语音生成的音质稳定性方面仍有一些不足。这些挑战主要是由于计算和数据资源的限制。目前,SpeechGPT仍在开发中,团队计划未来开源技术报告、代码和模型权重,以便更广泛的研究社区可以参与到这项技术的进一步发展和完善中。