Fish Agent V0.1 3B es un modelo de voz a voz innovador que captura y genera información de audio ambiental con una precisión sin precedentes. Este modelo utiliza una arquitectura sin marcadores semánticos, eliminando la necesidad de codificadores/decodificadores semánticos tradicionales. Además, es un modelo de texto a voz (TTS) de vanguardia entrenado con 700.000 horas de contenido de audio multilingüe. Como versión de pre-entrenamiento continuado de Qwen-2.5-3B-Instruct, se entrenó con 200 000 millones de tokens de voz y texto. El modelo admite 8 idiomas, incluyendo inglés y chino, con diferentes cantidades de datos de entrenamiento para cada idioma. El inglés y el chino cuentan con aproximadamente 300.000 horas cada uno, mientras que los demás idiomas tienen alrededor de 20.000 horas.