अली टोंगयी ऑडियो जनरेशन बड़ा मॉडल FunAudioLLM ओपन-सोर्स भावनात्मक आवाज़ बातचीत, ऑडियोबुक आदि परिदृश्यों का समर्थन करता है

अली टोंगयी प्रयोगशाला ने हाल ही में FunAudioLLM नामक ऑडियो जनरेशन बड़े मॉडल परियोजना को ओपन-सोर्स किया है, जिसका उद्देश्य मानव और बड़े भाषा मॉडल (LLMs) के बीच प्राकृतिक वॉयस इंटरैक्शन अनुभव को बेहतर बनाना है। इस परियोजना में दो मुख्य मॉडल शामिल हैं: SenseVoice और CosyVoice।

CosyVoice प्राकृतिक वॉयस जनरेशन पर ध्यान केंद्रित करता है, जिसमें बहुभाषी समर्थन, टोन और भावना नियंत्रण की सुविधाएँ हैं। यह बहुभाषी वॉयस जनरेशन, जीरो-शॉट वॉयस जनरेशन, क्रॉस-लैंग्वेज साउंड सिंथेसिस और निर्देश निष्पादन में उत्कृष्ट प्रदर्शन करता है। इसे 150,000 घंटे के डेटा से प्रशिक्षित किया गया है, जो कि चीनी, अंग्रेजी, जापानी, कैंटोनीज़ और कोरियाई जैसी पांच भाषाओं का समर्थन करता है, और यह तेजी से टोन का अनुकरण कर सकता है और भावना और लय का बारीकी से नियंत्रण प्रदान करता है।

SenseVoice उच्च सटीकता वाले बहुभाषी वॉयस पहचान, भावना पहचान और ऑडियो इवेंट डिटेक्शन पर केंद्रित है। इसे 400,000 घंटे के डेटा से प्रशिक्षित किया गया है, जो 50 से अधिक भाषाओं का समर्थन करता है, और इसकी पहचान क्षमता Whisper मॉडल से बेहतर है, विशेष रूप से चीनी और कैंटोनीज़ में 50% से अधिक सुधार के साथ। SenseVoice में भावना पहचान और साउंड इवेंट डिटेक्शन की क्षमता है, साथ ही इसकी त्वरित निष्पादन गति भी है।

微信截图_20240708084503.png

FunAudioLLM विभिन्न मानव-मशीन इंटरैक्शन एप्लिकेशन परिदृश्यों का समर्थन करता है, जैसे बहुभाषी अनुवाद, भावनात्मक वॉयस बातचीत, इंटरैक्टिव पॉडकास्ट और ऑडियोबुक आदि। यह SenseVoice, LLMs और CosyVoice को मिलाकर बिना किसी रुकावट के वॉयस-टू-वॉयस अनुवाद, भावनात्मक वॉयस चैट एप्लिकेशन, और इंटरैक्टिव पॉडकास्ट रेडियो स्टेशनों को सक्षम करता है।

तकनीकी सिद्धांत के संदर्भ में, CosyVoice वॉयस क्वांटाइजेशन कोडिंग पर आधारित है, जो प्राकृतिक और सुगम वॉयस जनरेशन का समर्थन करता है, जबकि SenseVoice व्यापक वॉयस प्रोसेसिंग क्षमताएँ प्रदान करता है, जिसमें ऑटोमेटिक वॉयस रिकग्निशन, भाषा पहचान, भावना पहचान और ऑडियो इवेंट डिटेक्शन शामिल हैं।

ओपन-सोर्स मॉडल और कोड ModelScope और Huggingface पर प्रकाशित किए गए हैं, जबकि GitHub पर प्रशिक्षण, निष्पादन और फाइन-ट्यूनिंग कोड भी उपलब्ध है। CosyVoice और SenseVoice मॉडल दोनों ModelScope पर ऑनलाइन अनुभव के लिए उपलब्ध हैं, जिससे उपयोगकर्ता इन उन्नत वॉयस तकनीकों का सीधे प्रयास कर सकते हैं।

परियोजना का पता: https://github.com/FunAudioLLM

AI समाचार

AIbase