Spirit LM
बहुविधा भाषा मॉडल, जो पाठ और वाणी को मिलाता है
सामान्य उत्पादउत्पादकताबहुविधाभाषा मॉडल
Spirit LM एक मूल बहुविधा भाषा मॉडल है, जो पाठ और वाणी को स्वतंत्र रूप से मिला सकता है। यह मॉडल 7B पूर्व-प्रशिक्षित पाठ भाषा मॉडल पर आधारित है, जिसे पाठ और वाणी इकाइयों पर निरंतर प्रशिक्षण द्वारा वाणी मोड में विस्तारित किया गया है। वाणी और पाठ अनुक्रमों को एकल टोकन स्ट्रीम के रूप में जोड़ा जाता है, और एक छोटे से स्वचालित रूप से क्यूरेट किए गए वाणी-पाठ समानांतर कॉर्पस का उपयोग करके, शब्द-स्तरीय इंटरलीविंग विधि के साथ प्रशिक्षित किया जाता है। Spirit LM के दो संस्करण हैं: मूल संस्करण वाणी ध्वनि इकाइयों (HuBERT) का उपयोग करता है, जबकि अभिव्यंजक संस्करण में ध्वनि इकाइयों के अलावा, अभिव्यक्ति की नकल करने के लिए पिच और शैली इकाइयाँ भी शामिल हैं। दोनों संस्करणों के लिए, पाठ को सबवर्ड BPE टोकन के साथ एन्कोड किया गया है। यह मॉडल न केवल पाठ मॉडल की शब्दार्थ क्षमता को दिखाता है, बल्कि वाणी मॉडल की अभिव्यंजक क्षमता को भी दिखाता है। इसके अलावा, हम दिखाते हैं कि Spirit LM कम उदाहरणों के साथ क्रॉस-मॉडल नए कार्यों (जैसे ASR, TTS, वाणी वर्गीकरण) को सीख सकता है।
Spirit LM नवीनतम ट्रैफ़िक स्थिति
मासिक कुल विज़िट
218
बाउंस दर
45.60%
प्रति विज़िट औसत पृष्ठ
1.0
औसत विज़िट अवधि
00:00:00