हाल ही में, Oute AI ने एक नई पाठ-से-ध्वनि संश्लेषण विधि पेश की है, जिसे OuteTTS-0.1-350M कहा जाता है। यह विधि शुद्ध भाषा मॉडलिंग का उपयोग करती है, बाहरी एडेप्टर या जटिल आर्किटेक्चर की आवश्यकता नहीं होती है, और यह एक सरल TTS विधि प्रदान करती है। OuteTTS-0.1-350M LLaMa आर्किटेक्चर पर आधारित है, जो WavTokenizer का उपयोग करके सीधे ऑडियो टोकन उत्पन्न करता है, जिससे प्रक्रिया अधिक प्रभावी होती है।

इस मॉडल में शून्य नमूना ध्वनि क्लोनिंग की क्षमता है, केवल कुछ सेकंड के संदर्भ ऑडियो की आवश्यकता होती है ताकि एक नई आवाज़ को कॉपी किया जा सके। OuteTTS-0.1-350M डिवाइस की प्रदर्शन के लिए डिज़ाइन किया गया है और यह llama.cpp के साथ संगत है, जिससे यह वास्तविक समय के अनुप्रयोगों के लिए आदर्श विकल्प बन जाता है। हालांकि इस मॉडल के पैरामीटर का आकार अपेक्षाकृत छोटा है (350 मिलियन), लेकिन इसकी प्रदर्शन बड़े और जटिल TTS सिस्टम के साथ प्रतिस्पर्धा कर सकती है।

OuteTTS-0.1-350M की पहुंच और दक्षता इसे कई अनुप्रयोगों के लिए उपयुक्त बनाती है, जिसमें व्यक्तिगत सहायक, ऑडियोबुक और सामग्री स्थानीयकरण शामिल हैं। Oute AI ने इसे CC-BY लाइसेंस के तहत जारी किया है, जो विभिन्न परियोजनाओं में आगे प्रयोग और एकीकरण को प्रोत्साहित करता है, जिससे उन्नत TTS तकनीक का लोकतंत्रीकरण होता है।

QQ20241106-112430.png

OuteTTS-0.1-350M का विमोचन पाठ-से-ध्वनि तकनीक में एक महत्वपूर्ण कदम को दर्शाता है, जो न्यूनतम गणना आवश्यकताओं के साथ उच्च गुणवत्ता वाली ध्वनि संश्लेषण प्रदान करने के लिए सरल आर्किटेक्चर का उपयोग करता है। यह LLaMa आर्किटेक्चर को एकीकृत करता है, WavTokenizer का उपयोग करता है, और जटिल एडेप्टर की आवश्यकता के बिना शून्य नमूना ध्वनि क्लोनिंग को निष्पादित करने में सक्षम है, जो इसे पारंपरिक TTS मॉडल से अलग बनाता है।

पता: https://www.outeai.com/blog/OuteTTS-0.1-350M