कृत्रिम बुद्धिमत्ता के क्षेत्र में, Hume AI कंपनी ने हाल ही में अपने नए उत्पाद Octave की घोषणा की है, जिसे बड़े भाषा मॉडल (LLM) द्वारा संचालित पहला टेक्स्ट-टू-स्पीच सिस्टम कहा जा रहा है। Octave का नवाचार इस बात में है कि यह न केवल प्राकृतिक आवाज उत्पन्न कर सकता है, बल्कि संदर्भ में भावनाओं, स्वर, लय और ताल को भी समझ सकता है, जिससे उपयोगकर्ताओं को अधिक जीवंत और मानवीय आवाज मिलती है।

Hume AI के सह-संस्थापक और मुख्य कार्यकारी अधिकारी एलन कोवेन ने मीडिया के साथ एक साक्षात्कार में कहा कि Octave मॉडल को टेक्स्ट-टू-स्पीच पीढ़ी प्रक्रिया को अधिक प्राकृतिक और लचीला बनाने के लिए डिज़ाइन किया गया था। उन्होंने उल्लेख किया कि Octave इनपुट टेक्स्ट सामग्री के आधार पर, स्वचालित रूप से चरित्र व्यक्तित्व और भावनात्मक स्थिति की पहचान कर सकता है, और तदनुसार आवाज के प्रदर्शन को समायोजित कर सकता है। उदाहरण के लिए, व्यंग्यात्मक वाक्यों को व्यंग्यात्मक स्वर में व्यक्त किया जाएगा, जबकि तत्काल सामग्री को तेज स्वर में प्रस्तुत किया जाएगा।

वाणी नियंत्रण

Octave में एक अनूठी विशेषता भी है, उपयोगकर्ता सरल प्राकृतिक भाषा निर्देशों के माध्यम से उत्पन्न ध्वनि को बारीकी से समायोजित कर सकते हैं। इसका मतलब है कि उपयोगकर्ता सीधे "अधिक खुश", "अधिक दुखी" जैसे विवरण इनपुट कर सकते हैं, जिससे उत्पन्न आवाज उनकी अपेक्षाओं के अनुरूप हो जाती है। कोवेन ने आगे कहा कि Octave "व्यंग्यात्मक मध्ययुगीन किसान" जैसे चरित्र के गुणों के आधार पर, तुरंत संबंधित आवाज उत्पन्न कर सकता है और भावनात्मक अभिव्यक्ति में उचित समायोजन कर सकता है।

QQ20250227-092641.png

पारंपरिक शब्द-दर-शब्द प्रसंस्करण मॉडल के विपरीत, Octave संदर्भ की निरंतरता को महत्व देता है, वाक्य स्तर पर और वाक्यों के बीच भावनात्मक परिवर्तनों को पकड़ सकता है। यह क्षमता Octave को जटिल भावनाओं और संदर्भों को संभालने में बेहतर प्रदर्शन करने में सक्षम बनाती है।

कृत्रिम बुद्धिमत्ता तकनीक के तेजी से विकास के साथ, Hume AI का Octave सिस्टम टेक्स्ट-टू-स्पीच तकनीक के लिए नई संभावनाएँ लाता है। यह न केवल फिल्म निर्माण, गेम विकास आदि उद्योगों को अधिक यथार्थवादी चरित्र डबिंग प्रदान कर सकता है, बल्कि शिक्षा, ग्राहक सेवा आदि क्षेत्रों के अनुप्रयोगों के लिए नए रास्ते भी खोलता है। Hume AI का यह नवाचार आवाज तकनीक के विकास को आगे बढ़ाएगा और अधिक प्राकृतिक और भावनात्मक संचार विधियों को बढ़ावा देगा।