ultravox-v0_4_1-llama-3_1-8b
Modelo de lenguaje grande multimodal de voz
Producto ComúnProductividadReconocimiento de vozTraducción de voz
fixie-ai/ultravox-v0_4_1-llama-3_1-8b es un modelo de lenguaje grande basado en Llama3.1-8B-Instruct y whisper-large-v3-turbo preentrenados, capaz de procesar entradas de voz y texto para generar salidas de texto. El modelo convierte la entrada de audio en incrustaciones mediante etiquetas ficticias especiales <|audio|>, y genera texto de salida. Versiones futuras planean ampliar el vocabulario de etiquetas para soportar la generación de etiquetas de audio semánticas y acústicas, lo que permitiría generar salida de voz mediante un vocoder. El modelo muestra un excelente rendimiento en la evaluación de traducción y no tiene ajustes de preferencia, siendo adecuado para agentes de voz, traducción de voz a voz, análisis de voz, etc.
ultravox-v0_4_1-llama-3_1-8b Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44