FunAudioLLM-प्राकृतिक अंतःक्रिया वाले ध्वनि समझ और निर्माण के आधार मॉडल

FunAudioLLM एक ऐसा ढाँचा है जिसका उद्देश्य बड़े भाषा मॉडल (Large Language Models, LLMs) के साथ मानवों के बीच प्राकृतिक ध्वनि अंतःक्रिया को बढ़ाना है। इसमें दो नवीन मॉडल शामिल हैं: SenseVoice उच्च परिशुद्धता बहुभाषी ध्वनि पहचान, भावना पहचान और ऑडियो घटनाओं के पता लगाने के लिए जिम्मेदार है; CosyVoice प्राकृतिक ध्वनि निर्माण के लिए जिम्मेदार है, जो बहुभाषी, स्वर और भावना नियंत्रण का समर्थन करता है। SenseVoice 50 से अधिक भाषाओं का समर्थन करता है, जिसमें बहुत कम विलंबता है; CosyVoice बहुभाषी ध्वनि निर्माण, शून्य-नमूना संदर्भ निर्माण, क्रॉस-भाषा ध्वनि क्लोनिंग और निर्देश अनुसरण क्षमता में कुशल है। संबंधित मॉडल Modelscope और Huggingface पर खुले स्रोत हैं, और GitHub पर संबंधित प्रशिक्षण, अनुमान और माइक्रो-ट्यूनिंग कोड जारी किया गया है।

AI समाचार

AI दैनिक

AI समयरेखा

नवीनतम मामले

छवि संग्रह

वीडियो संग्रह

ऑडियो संग्रह

सामग्री संग्रह

नवीनतम ट्यूटोरियल

AI उत्पाद रैंकिंग

AI ट्रैफ़िक वृद्धि रैंकिंग

AI ट्रैफ़िक गिरावट रैंकिंग

AI साप्ताहिक रैंकिंग

संयुक्त राज्य अमेरिका

चीन

भारत

ब्राजील

छवि निर्माण

निजी सहायक

चरित्र निर्माण

वीडियो निर्माण

AI प्रोजेक्ट रैंकिंग

AI प्रोजेक्ट विकास रैंकिंग

AI डेवलपर रैंकिंग

AI संगठन रैंकिंग

डीपसीक

TTS

LLM

ChatGPT

अवलोकन

FunAudioLLM

FunAudioLLM नवीनतम ट्रैफ़िक स्थिति

FunAudioLLM विज़िट प्रवृत्ति

FunAudioLLM विज़िट भौगोलिक वितरण

FunAudioLLM ट्रैफ़िक स्रोत

FunAudioLLM विकल्प

FunAudioLLM — प्राकृतिक अंतःक्रिया वाले ध्वनि समझ और निर्माण के आधार मॉडल

GLM-4-Voice — अंत से अंत तक चीनी और अंग्रेजी भाषा का ध्वनि संवाद मॉडल

भाषण-से-भाषण — ओपन-सोर्स ध्वनि-से-ध्वनि रूपांतरण मॉड्यूल

स्ट्रीमस्पीच — रियलटाइम ध्वनि अनुवाद, अंतर्राष्ट्रीय संचार का सेतु।

ChatTTS.com — प्राकृतिक वार्तालाप परिदृश्यों में पाठ-से-भाषण मॉडल

विडियोडबर — AI वीडियो अनुवाद, ध्वनि संश्लेषण

वॉक्सिफ़ाई — अति यथार्थवादी AI ध्वनि निर्माण

वॉइसजैकेट — AI वॉयस सिंथेसिस टूल, असलीपन आपकी कल्पना से परे

नियोन AI — उद्यमों और घरों की आवश्यकताओं को पूरा करने वाला एक उपयोग में आसान संवादात्मक कृत्रिम बुद्धिमत्ता

Spark-TTS — Spark-TTS एक बड़े भाषा मॉडल पर आधारित कुशल एकल-प्रवाह वियोजित भाषण संश्लेषण मॉडल है।

आया विजन 32B — आया विजन 32B एक बहुभाषी दृश्य भाषा मॉडल है, जो OCR, छवि वर्णन, दृश्य तर्क आदि कई उपयोगों के लिए उपयुक्त है।

ध्वनि उत्कीर्णन — ध्वनि उत्कीर्णन एक तेज़, सटीक और सहज ऑडियो और वीडियो ट्रांसक्रिप्शन उपकरण है।

ल्लासा — लामा ढाँचे पर आधारित TTS मूल मॉडल, 160,000 घंटे के टोकनयुक्त ध्वनि डेटा के साथ संगत।

LLaDA — LLaDA एक बड़े पैमाने पर भाषा प्रसार मॉडल है, जिसमें शक्तिशाली भाषा निर्माण क्षमता है, जो LLaMA3 8B प्रदर्शन के बराबर है।

Phind.com — Phind एक उन्नत कृत्रिम बुद्धिमत्ता खोज उपकरण है, जो बहुभाषी और बहु खोज कार्यों का समर्थन करता है।

ElevenLabs Scribe — Scribe वैश्विक स्तर पर सबसे सटीक वॉयस-टू-टेक्स्ट मॉडल है, जो 99 भाषाओं का समर्थन करता है।