ultravox-v0_4_1-mistral-nemo

Modelo de linguagem grande multimodal de voz

Produto ComumProdutividadeReconhecimento de vozTradução de voz
Ultravox-v0_4_1-mistral-nemo é um modelo de linguagem grande multimodal (LLM) baseado em Mistral-Nemo-Instruct-2407 e whisper-large-v3-turbo pré-treinados. O modelo consegue processar simultaneamente entradas de voz e texto, como, por exemplo, uma solicitação de sistema de texto e uma mensagem de usuário de áudio. O Ultravox converte a entrada de áudio em embeddings usando a tag de placeholder <|audio|>, e gera texto de saída. Versões futuras planejam expandir o vocabulário de tags para suportar a geração de tags de áudio semânticas e acústicas, que podem ser, então, usadas como entrada para um vocoder para gerar saída de áudio. O modelo foi desenvolvido pela Fixie.ai e utiliza a licença MIT.
Abrir Site

ultravox-v0_4_1-mistral-nemo Situação do Tráfego Mais Recente

Total de Visitas Mensais

29742941

Taxa de Rejeição

44.20%

Média de Páginas por Visita

5.9

Duração Média da Visita

00:04:44

ultravox-v0_4_1-mistral-nemo Tendência de Visitas

ultravox-v0_4_1-mistral-nemo Distribuição Geográfica das Visitas

ultravox-v0_4_1-mistral-nemo Fontes de Tráfego

ultravox-v0_4_1-mistral-nemo Alternativas