Nexa AI ने हाल ही में अपना नया OmniAudio-2.6B ऑडियो भाषा मॉडल लॉन्च किया है, जिसका उद्देश्य एज डिवाइस के लिए कुशल तैनाती की आवश्यकताओं को पूरा करना है। पारंपरिक ऑटोमेटेड स्पीच रिकग्निशन (ASR) और भाषा मॉडल को अलग-अलग आर्किटेक्चर में रखने के बजाय, OmniAudio-2.6B ने Gemma-2-2b, Whisper Turbo और कस्टम प्रोजेक्टर को एक एकीकृत ढांचे में समाहित किया है, जिससे पारंपरिक सिस्टम में विभिन्न घटकों के लिंकिंग से उत्पन्न होने वाली कमियों और विलंबता को समाप्त किया जा सके, जो विशेष रूप से सीमित कंप्यूटिंग संसाधनों वाले उपकरणों के लिए उपयुक्त है।

मुख्य विशेषताएँ:

प्रसंस्करण गति: OmniAudio-2.6B प्रदर्शन में उत्कृष्ट है। 2024 Mac Mini M4Pro पर, Nexa SDK का उपयोग करते हुए और FP16GGUF प्रारूप में, मॉडल प्रति सेकंड 35.23 टोकन की प्रसंस्करण गति प्राप्त कर सकता है, जबकि Q4_K_M GGUF प्रारूप में यह प्रति सेकंड 66 टोकन को संभाल सकता है। इसके विपरीत, Qwen2-Audio-7B समान हार्डवेयर पर प्रति सेकंड केवल 6.38 टोकन को ही संभाल सकता है, जो गति में स्पष्ट लाभ दिखाता है।संसाधन दक्षता: इस मॉडल का संकुचित डिज़ाइन क्लाउड संसाधनों पर निर्भरता को प्रभावी ढंग से कम करता है, जिससे यह पावर और बैंडविड्थ सीमित पहनने योग्य उपकरणों, ऑटोमोटिव सिस्टम और IoT उपकरणों के लिए एक आदर्श विकल्प बनता है। यह विशेषता इसे सीमित हार्डवेयर स्थितियों में कुशलता से संचालन की अनुमति देती है।उच्च सटीकता और लचीलापन: यद्यपि OmniAudio-2.6B गति और दक्षता पर ध्यान केंद्रित करता है, यह सटीकता में भी उत्कृष्ट है, जो ट्रांसक्रिप्शन, अनुवाद, सारांश जैसे कई कार्यों के लिए उपयुक्त है। चाहे वह वास्तविक समय की आवाज़ प्रसंस्करण हो या जटिल भाषा कार्य, OmniAudio-2.6B सटीक परिणाम प्रदान करने में सक्षम है।

QQ20241216-144108.png

OmniAudio-2.6B का लॉन्च Nexa AI के लिए ऑडियो भाषा मॉडल क्षेत्र में एक और महत्वपूर्ण प्रगति का प्रतीक है, इसका अनुकूलित ढांचा न केवल प्रसंस्करण गति और दक्षता को बढ़ाता है, बल्कि एज कंप्यूटिंग उपकरणों के लिए और अधिक संभावनाएँ भी लाता है। IoT और पहनने योग्य उपकरणों की निरंतर लोकप्रियता के साथ, OmniAudio-2.6B विभिन्न अनुप्रयोग परिदृश्यों में महत्वपूर्ण भूमिका निभाने की उम्मीद है।

मॉडल का पता: https://huggingface.co/NexaAIDev/OmniAudio-2.6B

उत्पाद का पता: https://nexa.ai/blogs/omniaudio-2.6b