OuteTTS-0.1-350M

一款通过纯语言模型实现的文本到语音合成模型

普通产品生产力文本到语音语音合成
OuteTTS-0.1-350M是一款基于纯语言模型的文本到语音合成技术,它不需要外部适配器或复杂架构,通过精心设计的提示和音频标记实现高质量的语音合成。该模型基于LLaMa架构,使用350M参数,展示了直接使用语言模型进行语音合成的潜力。它通过三个步骤处理音频:使用WavTokenizer进行音频标记化、CTC强制对齐创建精确的单词到音频标记映射、以及遵循特定格式的结构化提示创建。OuteTTS的主要优点包括纯语言建模方法、声音克隆能力、与llama.cpp和GGUF格式的兼容性。
打开网站

OuteTTS-0.1-350M 最新流量情况

月总访问量

3049

跳出率

44.87%

平均页面访问数

1.2

平均访问时长

00:00:08

OuteTTS-0.1-350M 访问量趋势

OuteTTS-0.1-350M 访问地理位置分布

OuteTTS-0.1-350M 流量来源

OuteTTS-0.1-350M 替代品