इजराइल की आर्टिफिशियल इंटेलिजेंस कंपनी aiOla ने हाल ही में वॉयस रिकग्निशन टेक्नोलॉजी के क्षेत्र में एक महत्वपूर्ण उपलब्धि हासिल की है, उन्होंने एक ओपन-सोर्स वॉयस रिकग्निशन मॉडल पेश किया है जिसका नाम Whisper Medusa है। यह नया मॉडल OpenAI के Whisper मॉडल की तुलना में 50% तेज है, जिससे उद्योग में व्यापक ध्यान आकर्षित हुआ है।

Whisper Medusa का मुख्य नवाचार इसकी सुधारित आर्किटेक्चर डिजाइन में है। aiOla कंपनी ने Whisper की मूल आर्किटेक्चर में संशोधन किया है, जिसमें मल्टी-हेड अटेंशन मैकेनिज्म को शामिल किया गया है। यह मैकेनिज्म मॉडल को कई "अटेंशन हेड्स" का समानांतर उपयोग करके विभिन्न प्रतिनिधित्व उप-क्षेत्रों से जानकारी पर ध्यान केंद्रित करने की अनुमति देता है। इस नवाचार के कारण मॉडल हर बार दस टोकन की भविष्यवाणी कर सकता है, जबकि पारंपरिक रूप से एक बार में एक टोकन की भविष्यवाणी की जाती है, जिससे वॉयस प्रीडिक्शन स्पीड और जनरेशन रन टाइम में उल्लेखनीय सुधार होता है।

QQ截图20240807091000.png

यह ध्यान देने योग्य है कि Whisper Medusa ने गति को बढ़ाने के साथ-साथ प्रदर्शन में कोई समझौता नहीं किया है। इसका श्रेय इसकी मुख्य प्रणाली को Whisper के आधार पर बनाए रखने को जाता है, जो मॉडल की सटीकता और स्थिरता सुनिश्चित करता है। प्रशिक्षण प्रक्रिया के दौरान, aiOla ने एक तकनीक का उपयोग किया जिसे कमजोर पर्यवेक्षित मशीन लर्निंग कहा जाता है। विशेष रूप से, उन्होंने Whisper के मुख्य घटकों को स्थिर रखा और अन्य टोकन प्रीडिक्शन मॉड्यूल को प्रशिक्षित करने के लिए मॉडल द्वारा उत्पन्न ऑडियो ट्रांसक्रिप्शन को लेबल के रूप में उपयोग किया। इस नवोन्मेषी प्रशिक्षण विधि ने मॉडल की सीखने की दक्षता और सटीकता को और बढ़ा दिया।

QQ截图20240807091013.png

Whisper Medusa का ओपन-सोर्स प्रकाशन वॉयस रिकग्निशन टेक्नोलॉजी के विकास पर गहरा प्रभाव डाल सकता है। यह न केवल शोधकर्ताओं और डेवलपर्स को एक शक्तिशाली नया उपकरण प्रदान करता है, बल्कि यह तेज और अधिक प्रभावी वॉयस प्रोसेसिंग एप्लिकेशनों के विकास को भी बढ़ावा दे सकता है। बढ़ती हुई वॉयस इंटरैक्शन की मांग के संदर्भ में, यह तकनीकी उपलब्धि निश्चित रूप से वॉयस रिकग्निशन क्षेत्र में आर्टिफिशियल इंटेलिजेंस के अनुप्रयोगों के लिए नए संभावनाओं का द्वार खोलेगी।

Whisper Medusa के लॉन्च के साथ, हम इस मॉडल पर आधारित और अधिक नवोन्मेषी अनुप्रयोगों की उम्मीद कर सकते हैं, जैसे कि स्मार्ट असिस्टेंट, रीयल-टाइम अनुवाद, और वॉयस कंट्रोल सिस्टम, जो सभी को महत्वपूर्ण प्रदर्शन सुधार मिल सकता है। यह प्रगति वॉयस रिकग्निशन तकनीक के लिए एक महत्वपूर्ण मील का पत्थर है और आर्टिफिशियल इंटेलिजेंस और मानव इंटरैक्शन के भविष्य के लिए एक अधिक प्रभावी और सुचारू दृष्टिकोण को चित्रित करता है।

प्रोजेक्ट पता:https://github.com/aiola-lab/whisper-medusa

huggingface:https://huggingface.co/aiola/whisper-medusa-v1