मेक-एन-ऑडियो 2
डिफ्यूज़न मॉडल पर आधारित टेक्स्ट-टू-ऑडियो जेनरेशन तकनीक
सामान्य उत्पादअन्यटेक्स्ट-टू-ऑडियोडिफ्यूज़न मॉडल
मेक-एन-ऑडियो 2 एक डिफ्यूज़न मॉडल पर आधारित टेक्स्ट-टू-ऑडियो जेनरेशन तकनीक है, जिसे झेजियांग विश्वविद्यालय, बाइटडांस और हांगकांग चीनी विश्वविद्यालय के शोधकर्ताओं ने मिलकर विकसित किया है। यह तकनीक प्री-ट्रेन्ड बड़े भाषा मॉडल (LLMs) का उपयोग करके टेक्स्ट को पार्स करती है, जिससे सिमेंटिक अलाइनमेंट और समय की संगति में सुधार होता है और उत्पन्न ऑडियो की गुणवत्ता में वृद्धि होती है। इसमें फीडफॉरवर्ड ट्रांसफॉर्मर पर आधारित डिफ्यूज़न डिनॉइज़र भी डिज़ाइन किया गया है, ताकि वेरिएबल-लेंथ ऑडियो जेनरेशन के प्रदर्शन को बेहतर बनाया जा सके और समय संबंधी जानकारी के निष्कर्षण को बढ़ाया जा सके। इसके अलावा, LLMs का उपयोग करके बड़े ऑडियो लेबल डेटा को ऑडियो-टेक्स्ट डेटासेट में बदलकर समय संबंधी डेटा की कमी की समस्या को हल किया गया है।
मेक-एन-ऑडियो 2 नवीनतम ट्रैफ़िक स्थिति
मासिक कुल विज़िट
67
बाउंस दर
38.80%
प्रति विज़िट औसत पृष्ठ
1.0
औसत विज़िट अवधि
00:00:00