अमेरिकी स्टार्टअप Useful Sensors ने एक ओपन-सोर्स वॉयस रिकग्निशन मॉडल लॉन्च किया है, जिसका नाम Moonshine है। Moonshine का डिज़ाइन ऑडियो डेटा को अधिक कुशलता से प्रोसेस करने के लिए किया गया है, OpenAI के Whisper की तुलना में, यह गणना संसाधनों के उपयोग में अधिक आर्थिक है और प्रोसेसिंग स्पीड में पांच गुना तेज है। यह नया मॉडल सीमित संसाधनों वाले हार्डवेयर पर वास्तविक समय अनुप्रयोगों के लिए बनाया गया है, जिसमें लचीली संरचना है।
Whisper के विपरीत, जो ऑडियो को निश्चित 30 सेकंड के टुकड़ों में प्रोसेस करता है, Moonshine वास्तविक ऑडियो लंबाई के आधार पर प्रोसेसिंग समय को समायोजित करता है। इससे यह छोटे ऑडियो टुकड़ों को प्रोसेस करते समय उत्कृष्ट प्रदर्शन करता है, और शून्य भरने के कारण होने वाले प्रोसेसिंग ओवरहेड को कम करता है।
Moonshine के दो संस्करण हैं: छोटा Tiny संस्करण जिसमें 27.1 मिलियन पैरामीटर हैं, और बड़ा Base संस्करण जिसमें 61.5 मिलियन हैं। इसके विपरीत, OpenAI के समकक्ष मॉडल में अधिक पैरामीटर होते हैं, Whisper tiny.en में 37.8 मिलियन और base.en में 72.6 मिलियन हैं।
परीक्षण परिणाम दर्शाते हैं कि Moonshine का Tiny मॉडल सटीकता में Whisper के समान है, जबकि यह कम गणना संसाधनों का उपयोग करता है। विभिन्न ऑडियो स्तरों और पृष्ठभूमि शोर की स्थितियों में, Moonshine के दोनों संस्करणों में शब्द त्रुटि दर (WER) Whisper से कम है, जो इसकी मजबूत प्रदर्शन को दर्शाता है।
शोध टीम ने बताया कि Moonshine अत्यधिक छोटे ऑडियो टुकड़ों (एक सेकंड से कम) को प्रोसेस करते समय अभी भी सुधार की गुंजाइश है। ये छोटे ऑडियो प्रशिक्षण डेटा में कम अनुपात में हैं, और ऐसे ऑडियो टुकड़ों के प्रशिक्षण को बढ़ाने से मॉडल के प्रदर्शन में सुधार हो सकता है।
इसके अलावा, Moonshine की ऑफ़लाइन क्षमता नए अनुप्रयोग परिदृश्यों को खोलती है, जो पहले हार्डवेयर सीमाओं के कारण संभव नहीं थे। उच्च ऊर्जा खपत की आवश्यकता वाले Whisper के विपरीत, Moonshine स्मार्टफोन और छोटे उपकरणों (जैसे रास्पबेरी पाई) पर चलने के लिए उपयुक्त है। Useful Sensors Moonshine का उपयोग अपने अंग्रेजी-स्पेनिश अनुवादक Torre को विकसित करने के लिए कर रहा है।
Moonshine का कोड GitHub पर जारी किया गया है, उपयोगकर्ताओं को ध्यान देना चाहिए कि Whisper जैसे AI ट्रांसक्रिप्शन सिस्टम में त्रुटियाँ हो सकती हैं। कुछ शोध दर्शाते हैं कि Whisper सामग्री उत्पन्न करते समय 1.4% की संभावना पर गलत जानकारी उत्पन्न करता है, विशेष रूप से भाषा बाधाओं वाले लोगों के लिए, त्रुटि दर अधिक होती है।
प्रोजेक्ट लिंक: https://github.com/usefulsensors/moonshine
मुख्य बिंदु:
🌟 Moonshine एक ओपन-सोर्स वॉयस रिकग्निशन मॉडल है, जिसकी प्रोसेसिंग स्पीड OpenAI के Whisper से पांच गुना तेज है।
🔍 यह मॉडल ऑडियो लंबाई के अनुसार प्रोसेसिंग समय को समायोजित कर सकता है, विशेष रूप से छोटे ऑडियो टुकड़ों के लिए।
🖥️ Moonshine ऑफ़लाइन संचालन का समर्थन करता है, जो सीमित संसाधनों वाले हार्डवेयर उपकरणों के लिए उपयुक्त है।