ultravox-v0_4_1-mistral-nemo
Modelo de lenguaje grande multimodal de voz
Producto ComúnProductividadReconocimiento de vozTraducción de voz
ultravox-v0_4_1-mistral-nemo es un modelo de lenguaje grande multimodal (LLM) de voz basado en Mistral-Nemo-Instruct-2407 y whisper-large-v3-turbo preentrenados. El modelo puede procesar simultáneamente entradas de voz y texto, como una indicación del sistema de texto y un mensaje de voz del usuario. Ultravox convierte el audio de entrada en incrustaciones mediante la etiqueta ficticia especial <|audio|>, y genera texto de salida. Las versiones futuras planean ampliar el vocabulario de etiquetas para admitir la generación de etiquetas de audio semánticas y acústicas, que luego se pueden alimentar a un vocoder para producir salida de voz. El modelo fue desarrollado por Fixie.ai y está bajo licencia MIT.
ultravox-v0_4_1-mistral-nemo Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44