ultravox-v0_4_1-mistral-nemo
Modelo de linguagem grande multimodal de voz
Produto ComumProdutividadeReconhecimento de vozTradução de voz
Ultravox-v0_4_1-mistral-nemo é um modelo de linguagem grande multimodal (LLM) baseado em Mistral-Nemo-Instruct-2407 e whisper-large-v3-turbo pré-treinados. O modelo consegue processar simultaneamente entradas de voz e texto, como, por exemplo, uma solicitação de sistema de texto e uma mensagem de usuário de áudio. O Ultravox converte a entrada de áudio em embeddings usando a tag de placeholder <|audio|>, e gera texto de saída. Versões futuras planejam expandir o vocabulário de tags para suportar a geração de tags de áudio semânticas e acústicas, que podem ser, então, usadas como entrada para um vocoder para gerar saída de áudio. O modelo foi desenvolvido pela Fixie.ai e utiliza a licença MIT.
ultravox-v0_4_1-mistral-nemo Situação do Tráfego Mais Recente
Total de Visitas Mensais
29742941
Taxa de Rejeição
44.20%
Média de Páginas por Visita
5.9
Duração Média da Visita
00:04:44