ultravox-v0_4_1-mistral-nemo

Modelo de lenguaje grande multimodal de voz

Producto ComúnProductividadReconocimiento de vozTraducción de voz
ultravox-v0_4_1-mistral-nemo es un modelo de lenguaje grande multimodal (LLM) de voz basado en Mistral-Nemo-Instruct-2407 y whisper-large-v3-turbo preentrenados. El modelo puede procesar simultáneamente entradas de voz y texto, como una indicación del sistema de texto y un mensaje de voz del usuario. Ultravox convierte el audio de entrada en incrustaciones mediante la etiqueta ficticia especial <|audio|>, y genera texto de salida. Las versiones futuras planean ampliar el vocabulario de etiquetas para admitir la generación de etiquetas de audio semánticas y acústicas, que luego se pueden alimentar a un vocoder para producir salida de voz. El modelo fue desarrollado por Fixie.ai y está bajo licencia MIT.
Abrir sitio web

ultravox-v0_4_1-mistral-nemo Situación del tráfico más reciente

Total de visitas mensuales

29742941

Tasa de rebote

44.20%

Páginas promedio por visita

5.9

Duración promedio de la visita

00:04:44

ultravox-v0_4_1-mistral-nemo Tendencia de visitas

ultravox-v0_4_1-mistral-nemo Distribución geográfica de las visitas

ultravox-v0_4_1-mistral-nemo Fuentes de tráfico

ultravox-v0_4_1-mistral-nemo Alternativas