इजराइल की आर्टिफिशियल इंटेलिजेंस स्टार्टअप aiOla ने हाल ही में एक बड़ा कदम उठाया है, जिसने एक नई ओपन-सोर्स वॉयस रिकग्निशन मॉडल Whisper-Medusa लॉन्च करने की घोषणा की है।

image.png

यह मॉडल साधारण नहीं है, यह OpenAI के प्रसिद्ध Whisper की तुलना में 50% तेज है! यह Whisper के आधार पर बनाया गया है, लेकिन इसमें एक नई "मल्टी-हेड अटेंशन" आर्किटेक्चर का उपयोग किया गया है, जो एक बार में OpenAI के उत्पाद से कहीं अधिक टोकन की भविष्यवाणी कर सकता है। इसके अलावा, कोड और वेट्स पहले से ही हगिंग फेस पर मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी की अनुमति के तहत प्रकाशित किए गए हैं, जो अनुसंधान और व्यावसायिक उपयोग की अनुमति देते हैं।

aiOla के अनुसंधान उपाध्यक्ष गिल हेज़ ने कहा कि ओपन-सोर्स सामुदायिक नवाचार और सहयोग को प्रोत्साहित करता है, जिससे गति और बेहतर होती है। यह कार्य समग्र आर्टिफिशियल इंटेलिजेंस सिस्टम के लिए रास्ता खोल सकता है, जिससे सिस्टम लगभग वास्तविक समय में उपयोगकर्ता के प्रश्नों को समझने और उत्तर देने में सक्षम हो सकता है।

इस आधारभूत मॉडल के अंतर्गत विभिन्न सामग्री का उत्पादन करने के युग में, उन्नत वॉयस रिकग्निशन अभी भी बहुत महत्वपूर्ण है। जैसे Whisper विभिन्न भाषाओं और उच्चारणों की जटिल आवाज़ों को संभाल सकता है, यह हर महीने 50 लाख से अधिक बार डाउनलोड होता है, कई एप्लिकेशन को समर्थन प्रदान करता है और वॉयस रिकग्निशन का एक स्वर्ण मानक बन गया है।

तो aiOla का Whisper-Medusa खास क्या है?

कंपनी ने Whisper की आर्किटेक्चर में बदलाव किया, मल्टी-हेड अटेंशन तंत्र जोड़ा, जिससे यह एक बार में 10 टोकन की भविष्यवाणी कर सकता है, गति में 50% की वृद्धि होती है, और यह सटीकता को प्रभावित नहीं करता है। इस मॉडल को प्रशिक्षित करने के लिए कमजोर पर्यवेक्षित मशीन लर्निंग विधि का उपयोग किया गया है, और भविष्य में और भी शक्तिशाली संस्करण होंगे। अधिक महत्वपूर्ण बात यह है कि Whisper-Medusa का बैकबोन Whisper पर आधारित है, इसलिए गति में सुधार प्रदर्शन की कीमत पर नहीं होता है।

Whisper-Medusa को प्रशिक्षित करते समय, aiOla ने कमजोर पर्यवेक्षित मशीन लर्निंग विधि का उपयोग किया। इसके तहत, इसने Whisper के मुख्य घटकों को फ्रीज कर दिया और अतिरिक्त टोकन भविष्यवाणी मॉड्यूल को प्रशिक्षित करने के लिए मॉडल द्वारा उत्पन्न ऑडियो ट्रांसक्रिप्ट को लेबल के रूप में उपयोग किया।

image.png

जब उनसे पूछा गया कि क्या कोई कंपनी Whisper-Medusa को पहले से प्राप्त कर सकती है, तो हेज़ ने कहा कि उन्होंने वास्तविक व्यावसायिक डेटा उपयोग के मामलों पर परीक्षण किया है, और यह वास्तविक परिदृश्यों में सटीकता से काम करता है, जिससे वॉयस एप्लिकेशन की प्रतिक्रिया और तेज हो जाएगी। अंततः, उनका विश्वास है कि पहचान और ट्रांसक्रिप्शन की गति में सुधार वॉयस एप्लिकेशन के टर्नअराउंड समय को तेज करेगा और वास्तविक समय प्रतिक्रिया प्रदान करने का रास्ता खोलेगा।

मुख्य बातें:

💥 50% तेज: aiOla का Whisper-Medusa OpenAI के Whisper की तुलना में वॉयस रिकग्निशन गति में महत्वपूर्ण सुधार करता है।

🎯 सटीकता में कमी नहीं: गति में वृद्धि के साथ मूल मॉडल के समान सटीकता को बनाए रखा गया है।

📈 एप्लिकेशन की संभावनाएँ विस्तृत: वॉयस एप्लिकेशन में प्रतिक्रिया को तेज करने, दक्षता बढ़ाने और लागत को कम करने की उम्मीद है।