Spirit LM

多模态语言模型,融合文本和语音

普通产品生产力多模态语言模型
Spirit LM是一个基础多模态语言模型,能够自由混合文本和语音。该模型基于一个7B预训练的文本语言模型,通过持续在文本和语音单元上训练来扩展到语音模式。语音和文本序列被串联为单个令牌流,并使用一个小的自动策划的语音-文本平行语料库,采用词级交错方法进行训练。Spirit LM有两个版本:基础版使用语音音素单元(HuBERT),而表达版除了音素单元外,还使用音高和风格单元来模拟表达性。对于两个版本,文本都使用子词BPE令牌进行编码。该模型不仅展现了文本模型的语义能力,还展现了语音模型的表达能力。此外,我们展示了Spirit LM能够在少量样本的情况下跨模态学习新任务(例如ASR、TTS、语音分类)。
打开网站

Spirit LM 最新流量情况

月总访问量

1422

跳出率

46.17%

平均页面访问数

1.1

平均访问时长

00:00:09

Spirit LM 访问量趋势

Spirit LM 访问地理位置分布

Spirit LM 流量来源

Spirit LM 替代品