अली टोंगयी प्रयोगशाला ने हाल ही में FunAudioLLM नामक ऑडियो जनरेशन बड़े मॉडल परियोजना को ओपन-सोर्स किया है, जिसका उद्देश्य मानव और बड़े भाषा मॉडल (LLMs) के बीच प्राकृतिक वॉयस इंटरैक्शन अनुभव को बेहतर बनाना है। इस परियोजना में दो मुख्य मॉडल शामिल हैं: SenseVoice और CosyVoice।
CosyVoice प्राकृतिक वॉयस जनरेशन पर ध्यान केंद्रित करता है, जिसमें बहुभाषी समर्थन, टोन और भावना नियंत्रण की सुविधाएँ हैं। यह बहुभाषी वॉयस जनरेशन, जीरो-शॉट वॉयस जनरेशन, क्रॉस-लैंग्वेज साउंड सिंथेसिस और निर्देश निष्पादन में उत्कृष्ट प्रदर्शन करता है। इसे 150,000 घंटे के डेटा से प्रशिक्षित किया गया है, जो कि चीनी, अंग्रेजी, जापानी, कैंटोनीज़ और कोरियाई जैसी पांच भाषाओं का समर्थन करता है, और यह तेजी से टोन का अनुकरण कर सकता है और भावना और लय का बारीकी से नियंत्रण प्रदान करता है।
SenseVoice उच्च सटीकता वाले बहुभाषी वॉयस पहचान, भावना पहचान और ऑडियो इवेंट डिटेक्शन पर केंद्रित है। इसे 400,000 घंटे के डेटा से प्रशिक्षित किया गया है, जो 50 से अधिक भाषाओं का समर्थन करता है, और इसकी पहचान क्षमता Whisper मॉडल से बेहतर है, विशेष रूप से चीनी और कैंटोनीज़ में 50% से अधिक सुधार के साथ। SenseVoice में भावना पहचान और साउंड इवेंट डिटेक्शन की क्षमता है, साथ ही इसकी त्वरित निष्पादन गति भी है।
FunAudioLLM विभिन्न मानव-मशीन इंटरैक्शन एप्लिकेशन परिदृश्यों का समर्थन करता है, जैसे बहुभाषी अनुवाद, भावनात्मक वॉयस बातचीत, इंटरैक्टिव पॉडकास्ट और ऑडियोबुक आदि। यह SenseVoice, LLMs और CosyVoice को मिलाकर बिना किसी रुकावट के वॉयस-टू-वॉयस अनुवाद, भावनात्मक वॉयस चैट एप्लिकेशन, और इंटरैक्टिव पॉडकास्ट रेडियो स्टेशनों को सक्षम करता है।
तकनीकी सिद्धांत के संदर्भ में, CosyVoice वॉयस क्वांटाइजेशन कोडिंग पर आधारित है, जो प्राकृतिक और सुगम वॉयस जनरेशन का समर्थन करता है, जबकि SenseVoice व्यापक वॉयस प्रोसेसिंग क्षमताएँ प्रदान करता है, जिसमें ऑटोमेटिक वॉयस रिकग्निशन, भाषा पहचान, भावना पहचान और ऑडियो इवेंट डिटेक्शन शामिल हैं।
ओपन-सोर्स मॉडल और कोड ModelScope और Huggingface पर प्रकाशित किए गए हैं, जबकि GitHub पर प्रशिक्षण, निष्पादन और फाइन-ट्यूनिंग कोड भी उपलब्ध है। CosyVoice और SenseVoice मॉडल दोनों ModelScope पर ऑनलाइन अनुभव के लिए उपलब्ध हैं, जिससे उपयोगकर्ता इन उन्नत वॉयस तकनीकों का सीधे प्रयास कर सकते हैं।
परियोजना का पता: https://github.com/FunAudioLLM