Fish Agent V0.1 3B

高精度环境音频信息捕捉与生成的语音转语音模型

普通产品生产力语音转语音文本到语音
Fish Agent V0.1 3B是一个开创性的语音转语音模型,能够以前所未有的精确度捕捉和生成环境音频信息。该模型采用了无语义标记架构,消除了传统语义编码器/解码器的需求。此外,它还是一个尖端的文本到语音(TTS)模型,训练数据涵盖了700,000小时的多语言音频内容。作为Qwen-2.5-3B-Instruct的继续预训练版本,它在200B语音和文本标记上进行了训练。该模型支持包括英语、中文在内的8种语言,每种语言的训练数据量不同,其中英语和中文各约300,000小时,其他语言各约20,000小时。
打开网站

Fish Agent V0.1 3B 最新流量情况

月总访问量

19075321

跳出率

45.07%

平均页面访问数

5.5

平均访问时长

00:05:32

Fish Agent V0.1 3B 访问量趋势

Fish Agent V0.1 3B 访问地理位置分布

Fish Agent V0.1 3B 流量来源

Fish Agent V0.1 3B 替代品