ultravox-v0_4_1-mistral-nemo est un grand modèle linguistique multimodal (LLM) vocal basé sur les modèles pré-entraînés Mistral-Nemo-Instruct-2407 et whisper-large-v3-turbo. Ce modèle peut traiter simultanément des entrées vocales et textuelles, par exemple une invite textuelle système et un message vocal utilisateur. Ultravox convertit l'audio d'entrée en plongements à l'aide de la balise fictive <|audio|> et génère un texte de sortie. Les versions futures prévoient d'étendre le vocabulaire des balises pour prendre en charge la génération de balises audio sémantiques et acoustiques, qui pourront ensuite être fournies à un vocodeur pour produire une sortie vocale. Ce modèle a été développé par Fixie.ai et est distribué sous licence MIT.