ultravox-v0_4_1-mistral-nemo

बहु-मोडल ध्वनि बड़ा भाषा मॉडल

सामान्य उत्पादउत्पादकताभाषण पहचानभाषण अनुवाद
ultravox-v0_4_1-mistral-nemo एक पूर्व-प्रशिक्षित Mistral-Nemo-Instruct-2407 और whisper-large-v3-turbo पर आधारित बहु-मोडल ध्वनि बड़ा भाषा मॉडल (LLM) है। यह मॉडल एक साथ ध्वनि और पाठ इनपुट को संसाधित करने में सक्षम है, उदाहरण के लिए, एक पाठ प्रणाली संकेत और एक ध्वनि उपयोगकर्ता संदेश। Ultravox इनपुट ऑडियो को एम्बेडिंग में बदलने के लिए विशेष <|audio|> छद्म टैग का उपयोग करता है और आउटपुट टेक्स्ट उत्पन्न करता है। भविष्य के संस्करणों में सिमेंटिक और ध्वनिक ऑडियो टैग उत्पन्न करने के लिए टोकन शब्दावली का विस्तार करने की योजना है, जिसे बाद में ध्वनि कोडेक में इनपुट किया जा सकता है और ध्वनि आउटपुट उत्पन्न किया जा सकता है। यह मॉडल Fixie.ai द्वारा विकसित किया गया है और MIT लाइसेंस के अंतर्गत है।
वेबसाइट खोलें

ultravox-v0_4_1-mistral-nemo नवीनतम ट्रैफ़िक स्थिति

मासिक कुल विज़िट

29742941

बाउंस दर

44.20%

प्रति विज़िट औसत पृष्ठ

5.9

औसत विज़िट अवधि

00:04:44

ultravox-v0_4_1-mistral-nemo विज़िट प्रवृत्ति

ultravox-v0_4_1-mistral-nemo विज़िट भौगोलिक वितरण

ultravox-v0_4_1-mistral-nemo ट्रैफ़िक स्रोत

ultravox-v0_4_1-mistral-nemo विकल्प