ultravox-v0_4_1-mistral-nemo

Modèle linguistique large multimodal vocal

Produit OrdinaireProductivitéReconnaissance vocaleTraduction vocale
ultravox-v0_4_1-mistral-nemo est un grand modèle linguistique multimodal (LLM) vocal basé sur les modèles pré-entraînés Mistral-Nemo-Instruct-2407 et whisper-large-v3-turbo. Ce modèle peut traiter simultanément des entrées vocales et textuelles, par exemple une invite textuelle système et un message vocal utilisateur. Ultravox convertit l'audio d'entrée en plongements à l'aide de la balise fictive <|audio|> et génère un texte de sortie. Les versions futures prévoient d'étendre le vocabulaire des balises pour prendre en charge la génération de balises audio sémantiques et acoustiques, qui pourront ensuite être fournies à un vocodeur pour produire une sortie vocale. Ce modèle a été développé par Fixie.ai et est distribué sous licence MIT.
Ouvrir le site Web

ultravox-v0_4_1-mistral-nemo Dernière situation du trafic

Nombre total de visites mensuelles

29742941

Taux de rebond

44.20%

Nombre moyen de pages par visite

5.9

Durée moyenne de la visite

00:04:44

ultravox-v0_4_1-mistral-nemo Tendance des visites

ultravox-v0_4_1-mistral-nemo Distribution géographique des visites

ultravox-v0_4_1-mistral-nemo Sources de trafic

ultravox-v0_4_1-mistral-nemo Alternatives