ElevenLabs, एक उभरती हुई कृत्रिम बुद्धिमत्ता (AI) कंपनी जो वॉयस क्लोनिंग और जेनरेशन में माहिर है, ने हाल ही में अपना नवीनतम वॉयस-टू-टेक्स्ट मॉडल - Scribe v1 लॉन्च किया है। इस मॉडल का दावा है कि यह कई भाषाओं में उच्चतम सटीकता प्राप्त करता है, और उपयोगकर्ता इसे कंपनी की वेबसाइट पर आज़मा सकते हैं।
ElevenLabs के बेंचमार्क परीक्षणों के अनुसार, Scribe ने Google के Gemini 2.0 Flash, OpenAI के Whisper v3 और Deepgram Nova-3 को पछाड़ते हुए, मौखिक भाषण को टेक्स्ट में बदलने में अभूतपूर्व रूप से कम त्रुटि दर हासिल की है। कंपनी का कहना है कि Scribe 99 भाषाओं में उच्च-सटीकता वाला ट्रांसक्रिप्शन प्रदान करता है, जिसमें पहले अनदेखी भाषाएँ जैसे सर्बियाई, कैंटोनीज़ और मलयालम भी शामिल हैं।
ElevenLabs के मुख्य शोधकर्ता, Flavio Schneider ने सोशल मीडिया प्लेटफ़ॉर्म X पर कहा कि Scribe कंपनी द्वारा अब तक जारी किया गया "सबसे स्मार्ट ऑडियो समझ मॉडल" है। उन्होंने इस बात पर ज़ोर दिया कि Scribe केवल एक ट्रांसक्रिप्शन टूल नहीं है, बल्कि यह ऑडियो सामग्री को समझता भी है, गैर-भाषाई घटनाओं (जैसे हँसी, ध्वनि प्रभाव, संगीत और पृष्ठभूमि शोर) का पता लगा सकता है, और लंबे ऑडियो में सटीक स्पीकर पृथक्करण के लिए जटिल वातावरण में विश्लेषण कर सकता है। उल्लेखनीय रूप से, Scribe एक ही ऑडियो फ़ाइल में 32 अलग-अलग वक्ताओं की पहचान और अलगाव कर सकता है।
ElevenLabs ने उपयोगकर्ताओं को याद दिलाया कि Scribe "उच्च-सटीकता ट्रांसक्रिप्शन की आवश्यकता वाले मामलों के लिए सबसे उपयुक्त है, न कि रीयल-टाइम ट्रांसक्रिप्शन के लिए"। कंपनी ने अपने रीयल-टाइम अनुप्रयोगों में उपयोग को बढ़ाने के लिए कम-विलेम्बन संस्करण लॉन्च करने की भी योजना बनाई है।
FLEURS और Common Voice के बेंचमार्क परिणामों के अनुसार, Scribe वास्तविक दुनिया की ऑडियो चुनौतियों को संभालने में उत्कृष्ट प्रदर्शन करता है, खासकर इतालवी (98.7% सटीकता) और अंग्रेजी (96.7% सटीकता) में शब्द त्रुटि दर के मामले में सबसे कम दर प्राप्त करता है।
Scribe अब ElevenLabs की वेबसाइट और API के माध्यम से उपलब्ध है, जिसकी कीमत प्रति घंटे इनपुट ऑडियो के लिए $0.40 है, और अगले छह हफ़्तों तक 50% की छूट मिलेगी। इसके अलावा, रीयल-टाइम अनुप्रयोगों के लिए कम-विलेम्बन संस्करण विकास में है।
कारोबारी निर्णय लेने वालों के लिए, Scribe उच्च-सटीकता ट्रांसक्रिप्शन के लिए एक स्केलेबल उपकरण प्रदान करता है, जो उन उद्योगों के लिए उपयुक्त है जहाँ दस्तावेज़ीकरण, मीटिंग ट्रांसक्रिप्शन और सामग्री पहुँच को स्वचालित करने की आवश्यकता होती है। कई भाषाओं में इसकी उच्च-सटीकता प्रसंस्करण बहुराष्ट्रीय कंपनियों, मीडिया कंपनियों और ग्राहक सहायता अनुप्रयोगों को भी लाभान्वित करेगा।
यह ध्यान देने योग्य है कि Scribe का लॉन्च प्रतिस्पर्धी Hume के टेक्स्ट-टू-स्पीच मॉडल Octave के लॉन्च के साथ ही हुआ है। Octave एक बड़े भाषा मॉडल पर आधारित टेक्स्ट-टू-स्पीच उपकरण है, जिससे उपयोगकर्ता भावनात्मक आवश्यकताओं के अनुसार AI द्वारा उत्पन्न आवाज़ को अनुकूलित कर सकते हैं, जिसका उद्देश्य सामग्री निर्माण के लिए है, जैसे ऑडियो पुस्तकें, पॉडकास्ट और वीडियो गेम वॉयसओवर। हालाँकि Scribe और Octave के कार्य अलग हैं, लेकिन उनके लॉन्च से AI-संचालित ऑडियो मॉडल में बढ़ती प्रतिस्पर्धा का पता चलता है।
उत्पाद प्रवेश द्वार:https://elevenlabs.io/blog/meet-scribe
मुख्य बातें:
🌟 Scribe v1 ElevenLabs का नवीनतम वॉयस-टू-टेक्स्ट मॉडल है, जिसने कई भाषाओं में उच्चतम सटीकता हासिल की है।
🗣️ यह 99 भाषाओं का समर्थन करता है, 32 तक अलग-अलग वक्ताओं की पहचान कर सकता है, और जटिल ऑडियो वातावरण के अनुकूल है।
💰 वर्तमान मूल्य प्रति घंटे $0.40 है, अगले छह हफ़्तों तक 50% की छूट है, और कम-विलेम्बन संस्करण विकास में है।