ultravox-v0_4_1-mistral-nemo

Multimodales Sprachgroßsprachenmodell

Normales ProduktProduktivitätSpracherkennungSprachübersetzung
ultravox-v0_4_1-mistral-nemo ist ein multimodales Sprachgroßsprachenmodell (LLM), das auf den vortrainierten Modellen Mistral-Nemo-Instruct-2407 und whisper-large-v3-turbo basiert. Das Modell kann sowohl Sprach- als auch Texteingaben verarbeiten, z. B. eine textbasierte Systemanweisung und eine sprachbasierte Benutzernachricht. Ultravox konvertiert eingehende Audiodaten mithilfe des speziellen <|audio|> Placeholders in Einbettungen und generiert Text-Ausgaben. Zukünftige Versionen sollen die Erweiterung des Token-Vokabulars um semantische und akustische Audio-Token ermöglichen, die dann an einen Vocoder zur Erzeugung von Sprachausgaben übergeben werden können. Das Modell wurde von Fixie.ai entwickelt und steht unter der MIT-Lizenz.
Website öffnen

ultravox-v0_4_1-mistral-nemo Neueste Verkehrssituation

Monatliche Gesamtbesuche

29742941

Absprungrate

44.20%

Durchschnittliche Seiten pro Besuch

5.9

Durchschnittliche Besuchsdauer

00:04:44

ultravox-v0_4_1-mistral-nemo Besuchstrend

ultravox-v0_4_1-mistral-nemo Geografische Verteilung der Besuche

ultravox-v0_4_1-mistral-nemo Traffic-Quellen

ultravox-v0_4_1-mistral-nemo Alternativen