Spirit LM

बहुविधा भाषा मॉडल, जो पाठ और वाणी को मिलाता है

सामान्य उत्पादउत्पादकताबहुविधाभाषा मॉडल
Spirit LM एक मूल बहुविधा भाषा मॉडल है, जो पाठ और वाणी को स्वतंत्र रूप से मिला सकता है। यह मॉडल 7B पूर्व-प्रशिक्षित पाठ भाषा मॉडल पर आधारित है, जिसे पाठ और वाणी इकाइयों पर निरंतर प्रशिक्षण द्वारा वाणी मोड में विस्तारित किया गया है। वाणी और पाठ अनुक्रमों को एकल टोकन स्ट्रीम के रूप में जोड़ा जाता है, और एक छोटे से स्वचालित रूप से क्यूरेट किए गए वाणी-पाठ समानांतर कॉर्पस का उपयोग करके, शब्द-स्तरीय इंटरलीविंग विधि के साथ प्रशिक्षित किया जाता है। Spirit LM के दो संस्करण हैं: मूल संस्करण वाणी ध्वनि इकाइयों (HuBERT) का उपयोग करता है, जबकि अभिव्यंजक संस्करण में ध्वनि इकाइयों के अलावा, अभिव्यक्ति की नकल करने के लिए पिच और शैली इकाइयाँ भी शामिल हैं। दोनों संस्करणों के लिए, पाठ को सबवर्ड BPE टोकन के साथ एन्कोड किया गया है। यह मॉडल न केवल पाठ मॉडल की शब्दार्थ क्षमता को दिखाता है, बल्कि वाणी मॉडल की अभिव्यंजक क्षमता को भी दिखाता है। इसके अलावा, हम दिखाते हैं कि Spirit LM कम उदाहरणों के साथ क्रॉस-मॉडल नए कार्यों (जैसे ASR, TTS, वाणी वर्गीकरण) को सीख सकता है।
वेबसाइट खोलें

Spirit LM नवीनतम ट्रैफ़िक स्थिति

मासिक कुल विज़िट

218

बाउंस दर

45.60%

प्रति विज़िट औसत पृष्ठ

1.0

औसत विज़िट अवधि

00:00:00

Spirit LM विज़िट प्रवृत्ति

Spirit LM विज़िट भौगोलिक वितरण

Spirit LM ट्रैफ़िक स्रोत

Spirit LM विकल्प