fixie-ai/ultravox-v0_4_1-llama-3_1-8b é um modelo de linguagem grande baseado em Llama3.1-8B-Instruct e whisper-large-v3-turbo pré-treinado, capaz de processar entradas de voz e texto e gerar saídas de texto. O modelo converte a entrada de áudio em embeddings usando a marcação especial <|audio|>, gerando texto de saída. Versões futuras planejam expandir o vocabulário de marcas para suportar a geração de marcas de áudio semânticas e acústicas, podendo ser usadas para gerar saída de voz com um vocoder. O modelo apresentou excelente desempenho em avaliações de tradução e não possui ajuste de viés, sendo adequado para cenários como agentes de voz, tradução de voz para voz e análise de voz.