ultravox-v0_4_1-llama-3_1-8b
Modelo de linguagem grande multimodal de voz
Produto ComumProdutividadeReconhecimento de vozTradução de voz
fixie-ai/ultravox-v0_4_1-llama-3_1-8b é um modelo de linguagem grande baseado em Llama3.1-8B-Instruct e whisper-large-v3-turbo pré-treinado, capaz de processar entradas de voz e texto e gerar saídas de texto. O modelo converte a entrada de áudio em embeddings usando a marcação especial <|audio|>, gerando texto de saída. Versões futuras planejam expandir o vocabulário de marcas para suportar a geração de marcas de áudio semânticas e acústicas, podendo ser usadas para gerar saída de voz com um vocoder. O modelo apresentou excelente desempenho em avaliações de tradução e não possui ajuste de viés, sendo adequado para cenários como agentes de voz, tradução de voz para voz e análise de voz.
ultravox-v0_4_1-llama-3_1-8b Situação do Tráfego Mais Recente
Total de Visitas Mensais
29742941
Taxa de Rejeição
44.20%
Média de Páginas por Visita
5.9
Duração Média da Visita
00:04:44