ultravox-v0_4_1-mistral-nemo
Multimodales Sprachgroßsprachenmodell
Normales ProduktProduktivitätSpracherkennungSprachübersetzung
ultravox-v0_4_1-mistral-nemo ist ein multimodales Sprachgroßsprachenmodell (LLM), das auf den vortrainierten Modellen Mistral-Nemo-Instruct-2407 und whisper-large-v3-turbo basiert. Das Modell kann sowohl Sprach- als auch Texteingaben verarbeiten, z. B. eine textbasierte Systemanweisung und eine sprachbasierte Benutzernachricht. Ultravox konvertiert eingehende Audiodaten mithilfe des speziellen <|audio|> Placeholders in Einbettungen und generiert Text-Ausgaben. Zukünftige Versionen sollen die Erweiterung des Token-Vokabulars um semantische und akustische Audio-Token ermöglichen, die dann an einen Vocoder zur Erzeugung von Sprachausgaben übergeben werden können. Das Modell wurde von Fixie.ai entwickelt und steht unter der MIT-Lizenz.
ultravox-v0_4_1-mistral-nemo Neueste Verkehrssituation
Monatliche Gesamtbesuche
29742941
Absprungrate
44.20%
Durchschnittliche Seiten pro Besuch
5.9
Durchschnittliche Besuchsdauer
00:04:44