Spirit LM

बहुविधा भाषा मॉडल, जो पाठ और वाणी को मिलाता है

सामान्य उत्पादउत्पादकताबहुविधाभाषा मॉडल

Spirit LM एक मूल बहुविधा भाषा मॉडल है, जो पाठ और वाणी को स्वतंत्र रूप से मिला सकता है। यह मॉडल 7B पूर्व-प्रशिक्षित पाठ भाषा मॉडल पर आधारित है, जिसे पाठ और वाणी इकाइयों पर निरंतर प्रशिक्षण द्वारा वाणी मोड में विस्तारित किया गया है। वाणी और पाठ अनुक्रमों को एकल टोकन स्ट्रीम के रूप में जोड़ा जाता है, और एक छोटे से स्वचालित रूप से क्यूरेट किए गए वाणी-पाठ समानांतर कॉर्पस का उपयोग करके, शब्द-स्तरीय इंटरलीविंग विधि के साथ प्रशिक्षित किया जाता है। Spirit LM के दो संस्करण हैं: मूल संस्करण वाणी ध्वनि इकाइयों (HuBERT) का उपयोग करता है, जबकि अभिव्यंजक संस्करण में ध्वनि इकाइयों के अलावा, अभिव्यक्ति की नकल करने के लिए पिच और शैली इकाइयाँ भी शामिल हैं। दोनों संस्करणों के लिए, पाठ को सबवर्ड BPE टोकन के साथ एन्कोड किया गया है। यह मॉडल न केवल पाठ मॉडल की शब्दार्थ क्षमता को दिखाता है, बल्कि वाणी मॉडल की अभिव्यंजक क्षमता को भी दिखाता है। इसके अलावा, हम दिखाते हैं कि Spirit LM कम उदाहरणों के साथ क्रॉस-मॉडल नए कार्यों (जैसे ASR, TTS, वाणी वर्गीकरण) को सीख सकता है।

Best AI Websites & Tools

Spirit LM

Spirit LM नवीनतम ट्रैफ़िक स्थिति

Spirit LM विज़िट प्रवृत्ति

Spirit LM विज़िट भौगोलिक वितरण

Spirit LM ट्रैफ़िक स्रोत

Spirit LM विकल्प

Spirit LM — बहुविधा भाषा मॉडल, जो पाठ और वाणी को मिलाता है

imp-v1-3b — एक शक्तिशाली बहुविधा लघु भाषा मॉडल

PaliGemma 2 मिश्रण — PaliGemma 2 मिश्रण एक बहुउद्देशीय दृश्य भाषा मॉडल है जो कई कार्यों और क्षेत्रों के लिए उपयुक्त है।

OLMoE ऐप — Ai2 OLMoE एक ओपन-सोर्स भाषा मॉडल ऐप है जो iOS डिवाइस पर चलता है।

ऑम्निह्यूमन-1 — ऑम्निह्यूमन-1 एक बहुविधा ढाँचा है जो एकल मानव चित्र और गति संकेतों से मानव वीडियो उत्पन्न करता है।

ReaderLM v2 — ReaderLM v2 एक HTML को Markdown और JSON में बदलने वाला अत्याधुनिक छोटा भाषा मॉडल है।

MiniMax-01 — एक शक्तिशाली भाषा मॉडल, जिसमें 4560 अरब कुल पैरामीटर हैं, जो 40 लाख टोकन तक के संदर्भ को संभाल सकता है।

Eurus-2-7B-SFT — Eurus-2-7B-SFT एक गणितीय क्षमता के अनुकूलन वाला एक बड़ा भाषा मॉडल है, जो तर्क और समस्या समाधान पर केंद्रित है।

Sonus AI — भविष्य के बड़े भाषा मॉडल का अनलॉकर

InternVL2_5-4B-MPO-AWQ — बहुविधा विशाल भाषा मॉडल जो छवि और पाठ सहभागिता क्षमता को अनुकूलित करता है

रोबो ब्लॉगर — आवाज़ को ब्लॉग पोस्ट में बदलने में मददगार

InternVL 2.5 — खुला स्रोत बहुविधा विशाल भाषा मॉडल श्रृंखला

INTELLECT-1 चैट — वैश्विक सहयोग से प्रशिक्षित 10B पैरामीटर वाला भाषा मॉडल चैट टूल

OLMo-2-1124-13B-DPO — उच्च-प्रदर्शन अंग्रेजी भाषा मॉडल, विभिन्न कार्यों के लिए उपयुक्त

OLMo 2 — अत्याधुनिक सर्व-ओपन लैंग्वेज मॉडल

लिंग्मा SWE-GPT — सॉफ्टवेयर सुधार के लिए डिज़ाइन किया गया एक ओपन-सोर्स बड़ा भाषा मॉडल।

प्रॉम्प्ट इंजीनियरिंग — प्रॉम्प्ट इंजीनियरिंग तकनीक का एक व्यापक संसाधन भंडार

ज़ाम्बा2-7B — उच्च-प्रदर्शन वाला छोटा भाषा मॉडल

चिकित्सा में o1 — चिकित्सा क्षेत्र में AI का प्रारंभिक अनुसंधान

SFR-Judge — मॉडल मूल्यांकन और ठीक-ठीक समायोजन को तेज करने वाला एक बुद्धिमान मूल्यांकन उपकरण

Llama-3.2-11B-Vision — बहुविधा बड़ा भाषा मॉडल, जो छवि और पाठ संसाधन का समर्थन करता है।

ईवीआई 2 — नया बुनियादी वॉयस-टू-वॉयस मॉडल जो मानवीय बातचीत का अनुभव प्रदान करता है।

Zamba2-mini — उन्नत छोटा भाषा मॉडल, विशेष रूप से उपकरण-पक्ष अनुप्रयोगों के लिए डिज़ाइन किया गया है।