ultravox-v0_4_1-mistral-nemo
Modèle linguistique large multimodal vocal
Produit OrdinaireProductivitéReconnaissance vocaleTraduction vocale
ultravox-v0_4_1-mistral-nemo est un grand modèle linguistique multimodal (LLM) vocal basé sur les modèles pré-entraînés Mistral-Nemo-Instruct-2407 et whisper-large-v3-turbo. Ce modèle peut traiter simultanément des entrées vocales et textuelles, par exemple une invite textuelle système et un message vocal utilisateur. Ultravox convertit l'audio d'entrée en plongements à l'aide de la balise fictive <|audio|> et génère un texte de sortie. Les versions futures prévoient d'étendre le vocabulaire des balises pour prendre en charge la génération de balises audio sémantiques et acoustiques, qui pourront ensuite être fournies à un vocodeur pour produire une sortie vocale. Ce modèle a été développé par Fixie.ai et est distribué sous licence MIT.
ultravox-v0_4_1-mistral-nemo Dernière situation du trafic
Nombre total de visites mensuelles
29742941
Taux de rebond
44.20%
Nombre moyen de pages par visite
5.9
Durée moyenne de la visite
00:04:44