जिली ऑटोमोबाइल ने हाल ही में वॉयस सिंथेसिस के क्षेत्र में एक महत्वपूर्ण सफलता हासिल की है, इसके स्व-विकसित HAM-TTS बड़े मॉडल ने उद्योग मानक VALL-E को पार कर लिया है, जिससे उद्योग में व्यापक ध्यान आकर्षित हुआ है। "स्टाररुई" नामक इस AI बड़े मॉडल ने उच्चारण सटीकता, प्राकृतिकता और वक्ता की समानता जैसे प्रमुख संकेतकों पर महत्वपूर्ण सुधार किया है।
HAM-TTS मॉडल ने टोकन आधारित जीरो-शॉट टेक्स्ट-टू-स्पीच लेयरड अकॉस्टिक मॉडलिंग तकनीक का उपयोग किया है, जिसने स्मार्ट कॉकपिट में उपयोगकर्ता इंटरैक्शन अनुभव को काफी बढ़ा दिया है। समान 400 मिलियन पैरामीटर की स्थिति में, HAM-TTS मॉडल की कैरेक्टर एरर रेट VALL-E की तुलना में 1.5% कम है; जबकि 800 मिलियन पैरामीटर के पूर्ण मॉडल पर, कैरेक्टर एरर रेट 2.3% तक गिर गया है। शैली की निरंतरता, स्वर की निरंतरता और समग्र स्कोर में, HAM-TTS मॉडल ने 10% का महत्वपूर्ण सुधार किया है।
स्टाररुई मॉडल की विशेषताएँ केवल प्रदर्शन संकेतकों में नहीं हैं, इसकी उपयोगिता भी प्रभावशाली है। यह विभिन्न परिदृश्यों में वक्ता की आवाज़ की स्थिरता बनाए रखते हुए वर्चुअल इमेज इंटरैक्शन, वॉयस नेविगेशन, समाचार प्रसारण आदि में स्थिति के अनुसार स्वाभाविक रूप से स्वर, टोन, विराम और भावना को समायोजित कर सकता है। और सबसे महत्वपूर्ण बात, यह मॉडल विभिन्न भाषाओं के बीच बिना किसी रुकावट के स्विच कर सकता है, जिसमें स्थानीय भाषाएँ और विदेशी भाषाएँ शामिल हैं, और केवल 3 सेकंड के नमूना इनपुट के साथ आवाज की नकल कर सकता है, जो उद्योग में सामान्यतः आवश्यक 10 सेकंड से अधिक समय से कहीं बेहतर है।
जिली टीम ने लेयरड अकॉस्टिक मॉडलिंग को शामिल करके मॉडल के प्रदर्शन में नवाचार किया है। उन्होंने उच्चारण की गलतियों को हल किया है और टेक्स्ट और आवाज़ के मिलान को और सटीक बनाने के लिए हिडन स्पेस वेरिएबल सीक्वेंस प्रिडिक्टर और टेक्स्ट अलाइनर को पेश किया है, जिससे सिंथेटिक वॉयस अधिक प्राकृतिक और सहज बनती है।
यह सफलता न केवल जिली की स्मार्ट तकनीक के विकास की क्षमता को प्रदर्शित करती है, बल्कि इसकी AI क्षेत्र में महत्वाकांक्षा को भी दर्शाती है। जिली का स्टाररुई AI बड़े मॉडल प्रणाली अब मल्टी-मॉडल बड़े मॉडल, भाषा बड़े मॉडल और कई अन्य क्षेत्रों में विस्तारित हो चुकी है, जो स्मार्ट ऑटोमोबाइल तकनीक के लिए आधार तैयार कर रही है। साथ ही, जिली की क्लाउड टोटल कंप्यूटिंग पावर भी पिछले वर्ष के 81 क्विंटिलियन ऑपरेशंस प्रति सेकंड से बढ़कर 102 क्विंटिलियन ऑपरेशंस प्रति सेकंड हो गई है, जो तकनीकी निवेश की निरंतरता को दर्शाती है।
इलेक्ट्रिकाइजेशन की प्रारंभिक सफलता के साथ, जिली के स्मार्ट तकनीक में यह सफलता ऑटोमोबाइल उद्योग के भविष्य के विकास के लिए नए दृष्टिकोण और संभावनाएँ प्रदान करती है। यह न केवल पारंपरिक ऑटोमोबाइल निर्माताओं की हमारी समझ को फिर से परिभाषित करती है, बल्कि यह भी संकेत देती है कि स्मार्ट तकनीक भविष्य के ऑटोमोबाइल उद्योग में प्रतिस्पर्धा का एक महत्वपूर्ण क्षेत्र बनने जा रही है।
पेपर का पता: https://arxiv.org/pdf/2403.05989