Fish Agent V0.1 3B
Modelo de voz a voz que captura y genera información de audio ambiental con alta precisión
Producto ComúnProductividadVoz a vozTexto a voz
Fish Agent V0.1 3B es un modelo de voz a voz innovador que captura y genera información de audio ambiental con una precisión sin precedentes. Este modelo utiliza una arquitectura sin marcadores semánticos, eliminando la necesidad de codificadores/decodificadores semánticos tradicionales. Además, es un modelo de texto a voz (TTS) de vanguardia entrenado con 700.000 horas de contenido de audio multilingüe. Como versión de pre-entrenamiento continuado de Qwen-2.5-3B-Instruct, se entrenó con 200 000 millones de tokens de voz y texto. El modelo admite 8 idiomas, incluyendo inglés y chino, con diferentes cantidades de datos de entrenamiento para cada idioma. El inglés y el chino cuentan con aproximadamente 300.000 horas cada uno, mientras que los demás idiomas tienen alrededor de 20.000 horas.
Fish Agent V0.1 3B Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44