कृत्रिम बुद्धिमत्ता के तेजी से विकास में, वॉयस सिंथेसिस तकनीक लगातार ध्यान आकर्षित कर रही है। हाल ही में, कोकोरो नामक नवीनतम वॉयस सिंथेसिस मॉडल को हगिंग फेस प्लेटफॉर्म पर आधिकारिक रूप से जारी किया गया, जिसमें 82 मिलियन पैरामीटर हैं, जो वॉयस सिंथेसिस क्षेत्र में एक महत्वपूर्ण मील का पत्थर है।
कोकोरो v0.19 ने रिलीज़ से पहले के कुछ हफ्तों में, TTS (टेक्स्ट-टू-स्पीच) क्षेत्र के रैंकिंग में पहला स्थान हासिल किया, और इसकी प्रदर्शन अन्य अधिक पैरामीटर वाले मॉडलों से भी बेहतर था। इस मॉडल ने मोनोफोनिक सेटिंग में, 100 घंटे से कम ऑडियो डेटा का उपयोग करके, 467M पैरामीटर वाले XTTS v2 और 1.2B पैरामीटर वाले मेटावॉइस जैसे मॉडलों के समान परिणाम प्राप्त किए। यह उपलब्धि दर्शाती है कि पारंपरिक वॉयस सिंथेसिस मॉडलों की प्रदर्शन और पैरामीटर, गणना की मात्रा और डेटा की मात्रा के बीच संबंध, शायद पहले की अपेक्षा से अधिक महत्वपूर्ण हो सकता है।
उपयोग में, उपयोगकर्ताओं को केवल Google Colab में कुछ कोड की पंक्तियाँ चलानी होती हैं, जिससे वे मॉडल और वॉयस पैक को लोड कर सकते हैं और उच्च गुणवत्ता वाली ऑडियो उत्पन्न कर सकते हैं। कोकोरो वर्तमान में अमेरिकी अंग्रेजी और ब्रिटिश अंग्रेजी का समर्थन करता है, और उपयोगकर्ताओं के लिए कई वॉयस पैक प्रदान करता है।
कोकोरो का प्रशिक्षण प्रक्रिया Vast.ai के A10080GB vRAM उदाहरण का उपयोग करके की गई, जिसका किराया अपेक्षाकृत कम है, जिससे कुशल प्रशिक्षण प्रक्रिया सुनिश्चित होती है। पूरे मॉडल का प्रशिक्षण केवल 20 से कम प्रशिक्षण चक्रों और 100 घंटे से कम ऑडियो डेटा का उपयोग करके किया गया। कोकोरो मॉडल ने प्रशिक्षण में सार्वजनिक डोमेन के ऑडियो डेटा और अन्य ओपन लाइसेंस वाले ऑडियो का उपयोग किया, जिससे डेटा की अनुपालनता सुनिश्चित होती है।
हालांकि कोकोरो वॉयस सिंथेसिस में उत्कृष्ट प्रदर्शन करता है, लेकिन इसके प्रशिक्षण डेटा और आर्किटेक्चर की सीमाओं के कारण, वर्तमान में आवाज क्लोनिंग का समर्थन नहीं करता है, और मुख्य प्रशिक्षण डेटा सेट लंबी पढ़ाई और वर्णन पर केंद्रित है, न कि संवाद पर।
मॉडल: https://huggingface.co/hexgrad/Kokoro-82M
अनुभव: https://huggingface.co/spaces/hexgrad/Kokoro-TTS
मुख्य बिंदु:
🌟 कोकोरो-82M एक नया जारी किया गया वॉयस सिंथेसिस मॉडल है, जिसमें 82 मिलियन पैरामीटर हैं, और यह विभिन्न वॉयस पैकों का समर्थन करता है।
🎤 यह मॉडल TTS क्षेत्र में उत्कृष्ट प्रदर्शन करता है, और यह रैंकिंग में पहले स्थान पर रहा, केवल 100 घंटे से कम ऑडियो डेटा का उपयोग करके प्रशिक्षित किया गया।
📊 कोकोरो मॉडल का प्रशिक्षण ओपन लाइसेंस वाले डेटा का उपयोग करके किया गया है, जिससे अनुपालनता सुनिश्चित होती है, लेकिन वर्तमान में कुछ कार्यात्मक सीमाएँ हैं।