कृत्रिम बुद्धिमत्ता के क्षेत्र में, पाठ ऑडियो उत्पन्न करने की तकनीक धीरे-धीरे अनुसंधान का热点 बनती जा रही है। हाल ही में, शोधकर्ताओं ने एक नए मॉडल का नाम TANGOFLUX पेश किया है, जो प्रदर्शन और दक्षता दोनों में उत्कृष्टता प्रदर्शित करता है।
TANGOFLUX एक कुशल पाठ से ऑडियो उत्पन्न करने वाला मॉडल है, जिसमें 515 मिलियन पैरामीटर हैं, जो केवल 3.7 सेकंड में 30 सेकंड तक के 44.1kHz ऑडियो उत्पन्न कर सकता है, यह गति इसे एकल A40GPU पर बहुत उत्कृष्ट बनाती है।
TANGOFLUX की मुख्य विशेषता यह है कि यह विभिन्न ध्वनियाँ उत्पन्न कर सकता है, जैसे कि पक्षियों की चहचहाहट, सीटी, विस्फोट आदि, इसके अलावा यह संगीत भी उत्पन्न करने का समर्थन करता है, हालांकि परिणाम उतने अच्छे नहीं होते।
पाठ ऑडियो उत्पन्न करने वाले मॉडल का एक मुख्य चुनौती यह है कि पसंद के जोड़े कैसे बनाए जाएं। बड़े भाषा मॉडल (LLMs) के विपरीत, पाठ ऑडियो उत्पन्न करने वाले मॉडल में सत्यापित पुरस्कार तंत्र या स्वर्ण मानक उत्तरों की कमी होती है। इस समस्या को हल करने के लिए, शोध टीम ने CLAP-Ranked Preference Optimization (CRPO) नामक एक नए ढांचे का प्रस्ताव रखा। यह ढांचा पाठ ऑडियो उत्पन्न करने वाले मॉडल के संरेखण प्रदर्शन को बढ़ाने के लिए पसंद डेटा को पुनरावृत्त करने और अनुकूलित करने के माध्यम से कार्य करता है। शोध से पता चला है कि CRPO द्वारा उत्पन्न ऑडियो पसंद डेटा मौजूदा विकल्पों की तुलना में प्रदर्शन में बेहतर है।
इस ढांचे के माध्यम से, TANGOFLUX ने कई वस्तुनिष्ठ और विषयगत मानक परीक्षणों में प्रमुख प्रदर्शन हासिल किया है। इसके अलावा, शोध टीम ने पाठ ऑडियो उत्पन्न करने के अनुसंधान का समर्थन करने के लिए सभी कोड और मॉडल को ओपन-सोर्स करने का निर्णय लिया है। ऑडियो उत्पन्न करने की आवश्यकता वाले अनुप्रयोगों के लिए, TANGOFLUX निश्चित रूप से एक महत्वपूर्ण तकनीकी प्रगति है।
वास्तविक प्रभाव के मामले में, TANGOFLUX ऑडियो उत्पन्न करने की गुणवत्ता में अन्य मॉडलों से बेहतर है, जो अधिक स्पष्ट घटनाओं की ध्वनि, बेहतर घटनाओं के अनुक्रम का पुन: निर्माण और उच्च ऑडियो गुणवत्ता प्रदर्शित करता है। कई उदाहरणों की तुलना करके, उपयोगकर्ता ऑडियो उत्पन्न करने में TANGOFLUX के लाभों को स्पष्ट रूप से महसूस कर सकते हैं।
संकेत शब्द: मानव की मधुर सीटी और प्राकृतिक पक्षियों की चहचहाहट सामंजस्य में coexist करते हैं, उत्पन्न परिणाम इस प्रकार है:
इस नई तकनीक के आगमन के साथ, पाठ से ऑडियो उत्पन्न करने के अनुप्रयोगों की संभावनाएँ और भी विस्तृत हो गई हैं, और भविष्य में यह फिल्म निर्माण, गेम ध्वनियों आदि के क्षेत्रों में महत्वपूर्ण भूमिका निभा सकती है।
परियोजना का प्रवेश द्वार: https://tangoflux.github.io/
मुख्य बिंदु:
🎧 TANGOFLUX एक कुशल पाठ ऑडियो उत्पन्न करने वाला मॉडल है, जो 3.7 सेकंड में 30 सेकंड की उच्च गुणवत्ता वाली ऑडियो उत्पन्न कर सकता है।
🔧 CLAP-Ranked Preference Optimization (CRPO) ढांचे का प्रस्ताव किया गया है, जिससे मॉडल के प्रदर्शन और ऑडियो पसंद डेटा का अनुकूलन किया जा सके।
🌍 सभी कोड और मॉडल ओपन-सोर्स किए गए हैं, जिसका उद्देश्य पाठ ऑडियो उत्पन्न करने के अनुसंधान और अनुप्रयोग को बढ़ावा देना है।