FunAudioLLM

प्राकृतिक अंतःक्रिया वाले ध्वनि समझ और निर्माण के आधार मॉडल

सामान्य उत्पादअन्यध्वनि पहचानध्वनि संश्लेषण

FunAudioLLM एक ऐसा ढाँचा है जिसका उद्देश्य बड़े भाषा मॉडल (Large Language Models, LLMs) के साथ मानवों के बीच प्राकृतिक ध्वनि अंतःक्रिया को बढ़ाना है। इसमें दो नवीन मॉडल शामिल हैं: SenseVoice उच्च परिशुद्धता बहुभाषी ध्वनि पहचान, भावना पहचान और ऑडियो घटनाओं के पता लगाने के लिए जिम्मेदार है; CosyVoice प्राकृतिक ध्वनि निर्माण के लिए जिम्मेदार है, जो बहुभाषी, स्वर और भावना नियंत्रण का समर्थन करता है। SenseVoice 50 से अधिक भाषाओं का समर्थन करता है, जिसमें बहुत कम विलंबता है; CosyVoice बहुभाषी ध्वनि निर्माण, शून्य-नमूना संदर्भ निर्माण, क्रॉस-भाषा ध्वनि क्लोनिंग और निर्देश अनुसरण क्षमता में कुशल है। संबंधित मॉडल Modelscope और Huggingface पर खुले स्रोत हैं, और GitHub पर संबंधित प्रशिक्षण, अनुमान और माइक्रो-ट्यूनिंग कोड जारी किया गया है।

Best AI Websites & Tools

FunAudioLLM

FunAudioLLM नवीनतम ट्रैफ़िक स्थिति

FunAudioLLM विज़िट प्रवृत्ति

FunAudioLLM विज़िट भौगोलिक वितरण

FunAudioLLM ट्रैफ़िक स्रोत

FunAudioLLM विकल्प

FunAudioLLM — प्राकृतिक अंतःक्रिया वाले ध्वनि समझ और निर्माण के आधार मॉडल

ChatTTS.com — प्राकृतिक वार्तालाप परिदृश्यों में पाठ-से-भाषण मॉडल

आया विजन 32B — आया विजन 32B एक बहुभाषी दृश्य भाषा मॉडल है, जो OCR, छवि वर्णन, दृश्य तर्क आदि कई उपयोगों के लिए उपयुक्त है।

PengChengStarling — PengChengStarling एक icefall प्रोजेक्ट पर आधारित बहुभाषी स्वचालित वाक् पहचान (ASR) मॉडल विकास टूलकिट है।

GLM-4-Voice — अंत से अंत तक चीनी और अंग्रेजी भाषा का ध्वनि संवाद मॉडल

भाषण-से-भाषण — ओपन-सोर्स ध्वनि-से-ध्वनि रूपांतरण मॉड्यूल

WeST — 300 पंक्तियों के कोड का उपयोग करके LLM-आधारित ध्वनि-से-पाठ रूपांतरण।

Llama 3.1 — अत्याधुनिक ओपन-सोर्स AI मॉडल, बहुभाषी और उन्नत सुविधाओं का समर्थन करता है।

स्ट्रीमस्पीच — रियलटाइम ध्वनि अनुवाद, अंतर्राष्ट्रीय संचार का सेतु।

मेटा लामा 3 — मेटा का नया पीढ़ी का खुला स्रोत बड़ा भाषा मॉडल, बेहतरीन प्रदर्शन वाला।

छवि/मंगा अनुवादक — किसी भी चित्र में लिखे गए पाठ का एक क्लिक में अनुवाद करें

विस्पर स्पीच — ओपन सोर्स टेक्स्ट-टू-स्पीच सिस्टम

विडियोडबर — AI वीडियो अनुवाद, ध्वनि संश्लेषण

वॉक्सिफ़ाई — अति यथार्थवादी AI ध्वनि निर्माण

वॉइसजैकेट — AI वॉयस सिंथेसिस टूल, असलीपन आपकी कल्पना से परे

नियोन AI — उद्यमों और घरों की आवश्यकताओं को पूरा करने वाला एक उपयोग में आसान संवादात्मक कृत्रिम बुद्धिमत्ता

l1m — एक प्रॉक्सी API जो LLMs पर आधारित है, जो पाठ और छवियों से संरचित डेटा निकालने के लिए है।

AoT — एटम ऑफ़ थॉट्स (AoT) बड़े भाषा मॉडल अनुमान प्रदर्शन को बेहतर बनाने के लिए एक ढांचा है।

Spark-TTS — Spark-TTS एक बड़े भाषा मॉडल पर आधारित कुशल एकल-प्रवाह वियोजित भाषण संश्लेषण मॉडल है।

Scira — Scira एक अतिसूक्ष्मवादी AI संचालित खोज इंजन है जो उपयोगकर्ताओं को इंटरनेट पर जानकारी खोजने में मदद करता है।

माइंडमैपर — एक वेब एप्लिकेशन जो URL, YouTube वीडियो या टेक्स्ट प्रॉम्प्ट से इंटरैक्टिव माइंड मैप उत्पन्न करता है।