कृत्रिम बुद्धिमत्ता के क्षेत्र में, Hume AI कंपनी ने हाल ही में अपने नए उत्पाद Octave की घोषणा की है, जिसे बड़े भाषा मॉडल (LLM) द्वारा संचालित पहला टेक्स्ट-टू-स्पीच सिस्टम कहा जा रहा है। Octave का नवाचार इस बात में है कि यह न केवल प्राकृतिक आवाज उत्पन्न कर सकता है, बल्कि संदर्भ में भावनाओं, स्वर, लय और ताल को भी समझ सकता है, जिससे उपयोगकर्ताओं को अधिक जीवंत और मानवीय आवाज मिलती है।
Hume AI के सह-संस्थापक और मुख्य कार्यकारी अधिकारी एलन कोवेन ने मीडिया के साथ एक साक्षात्कार में कहा कि Octave मॉडल को टेक्स्ट-टू-स्पीच पीढ़ी प्रक्रिया को अधिक प्राकृतिक और लचीला बनाने के लिए डिज़ाइन किया गया था। उन्होंने उल्लेख किया कि Octave इनपुट टेक्स्ट सामग्री के आधार पर, स्वचालित रूप से चरित्र व्यक्तित्व और भावनात्मक स्थिति की पहचान कर सकता है, और तदनुसार आवाज के प्रदर्शन को समायोजित कर सकता है। उदाहरण के लिए, व्यंग्यात्मक वाक्यों को व्यंग्यात्मक स्वर में व्यक्त किया जाएगा, जबकि तत्काल सामग्री को तेज स्वर में प्रस्तुत किया जाएगा।
Octave में एक अनूठी विशेषता भी है, उपयोगकर्ता सरल प्राकृतिक भाषा निर्देशों के माध्यम से उत्पन्न ध्वनि को बारीकी से समायोजित कर सकते हैं। इसका मतलब है कि उपयोगकर्ता सीधे "अधिक खुश", "अधिक दुखी" जैसे विवरण इनपुट कर सकते हैं, जिससे उत्पन्न आवाज उनकी अपेक्षाओं के अनुरूप हो जाती है। कोवेन ने आगे कहा कि Octave "व्यंग्यात्मक मध्ययुगीन किसान" जैसे चरित्र के गुणों के आधार पर, तुरंत संबंधित आवाज उत्पन्न कर सकता है और भावनात्मक अभिव्यक्ति में उचित समायोजन कर सकता है।
पारंपरिक शब्द-दर-शब्द प्रसंस्करण मॉडल के विपरीत, Octave संदर्भ की निरंतरता को महत्व देता है, वाक्य स्तर पर और वाक्यों के बीच भावनात्मक परिवर्तनों को पकड़ सकता है। यह क्षमता Octave को जटिल भावनाओं और संदर्भों को संभालने में बेहतर प्रदर्शन करने में सक्षम बनाती है।
कृत्रिम बुद्धिमत्ता तकनीक के तेजी से विकास के साथ, Hume AI का Octave सिस्टम टेक्स्ट-टू-स्पीच तकनीक के लिए नई संभावनाएँ लाता है। यह न केवल फिल्म निर्माण, गेम विकास आदि उद्योगों को अधिक यथार्थवादी चरित्र डबिंग प्रदान कर सकता है, बल्कि शिक्षा, ग्राहक सेवा आदि क्षेत्रों के अनुप्रयोगों के लिए नए रास्ते भी खोलता है। Hume AI का यह नवाचार आवाज तकनीक के विकास को आगे बढ़ाएगा और अधिक प्राकृतिक और भावनात्मक संचार विधियों को बढ़ावा देगा।