नारी लैब्स नामक एक दो-व्यक्ति स्टार्टअप ने Dia जारी किया है, जो एक 1.6 बिलियन पैरामीटर टेक्स्ट-टू-स्पीच (TTS) मॉडल है जिसका उद्देश्य सीधे टेक्स्ट प्रॉम्प्ट से प्राकृतिक वार्तालाप उत्पन्न करना है। इसके सह-संस्थापक टोबी किम का दावा है कि Dia का प्रदर्शन ElevenLabs जैसे प्रतिस्पर्धियों के मालिकाना उत्पादों और Google के नोटबुकLM AI पॉडकास्ट जेनरेशन फीचर से बेहतर है, और यह हाल ही में जारी किए गए OpenAI के gpt-4o-mini-tts को भी चुनौती दे सकता है।

किम ने सोशल मीडिया X पर कहा कि Dia की गुणवत्ता नोटबुकLM के पॉडकास्ट फीचर के बराबर है और ElevenLabs Studio और Sesame के ओपन मॉडल से बेहतर है। उन्होंने बताया कि यह मॉडल "शून्य धन" में बनाया गया था और उन्होंने इस बात पर जोर दिया कि वे शुरू में AI विशेषज्ञ नहीं थे, बल्कि नोटबुकLM के पॉडकास्ट फीचर के प्रति उनके प्यार ने उन्हें यह प्रोजेक्ट शुरू करने के लिए प्रेरित किया। उन्होंने बाजार में उपलब्ध सभी TTS API का प्रयास किया, लेकिन कोई भी पर्याप्त प्राकृतिक नहीं था। किम ने Google को Dia को प्रशिक्षित करने के लिए अपने टेंसर प्रोसेसिंग यूनिट चिप्स (TPU) का उपयोग करने की अनुमति देने के लिए धन्यवाद दिया।

वर्तमान में, Dia का कोड और वज़न Hugging Face और Github पर ओपन सोर्स है, जिसे उपयोगकर्ता डाउनलोड और स्थानीय रूप से तैनात कर सकते हैं। व्यक्तिगत उपयोगकर्ता Hugging Face Space पर ऑनलाइन भी इसका अनुभव कर सकते हैं।

ध्वनि नियंत्रण

उन्नत नियंत्रण और अधिक अनुकूलन योग्य सुविधाएँ

Dia में भावनात्मक स्वर, स्पीकर मार्कर और गैर-भाषाई ऑडियो संकेत जैसे (हँसी), (खांसी), (गला साफ़ करना) जैसी सूक्ष्म सुविधाएँ शामिल हैं, ये सभी केवल शुद्ध पाठ के माध्यम से प्राप्त होते हैं। नारी लैब्स के उदाहरण से पता चलता है कि Dia इन लेबलों की सही व्याख्या करने में सक्षम है, जबकि अन्य मॉडल अक्सर विश्वसनीय रूप से समर्थन नहीं कर पाते हैं। यह मॉडल वर्तमान में केवल अंग्रेजी का समर्थन करता है, और आवाज हर रन पर अलग-अलग होती है, जब तक कि उपयोगकर्ता जनरेटिंग सीड को संशोधित नहीं करता है या वॉयस क्लोनिंग के लिए ऑडियो प्रॉम्प्ट प्रदान नहीं करता है।

नारी लैब्स ने अपनी वेबसाइट पर Dia, ElevenLabs Studio और Sesame CSM-1B की तुलनात्मक उदाहरण प्रदान किए हैं, जो प्राकृतिक लय, गैर-भाषाई अभिव्यक्ति, बहु-भावनात्मक वार्तालाप, जटिल लय वाली सामग्री और ऑडियो संकेतों के माध्यम से भाषण शैली को जारी रखने के मामले में Dia की श्रेष्ठता को दर्शाते हैं। नारी लैब्स ने बताया कि Sesame के प्रदर्शन में संभवतः इसके आंतरिक बड़े पैरामीटर वाले संस्करण का उपयोग किया गया है।

मॉडल पहुँच और तकनीकी विशिष्टताएँ

डेवलपर्स नारी लैब्स के GitHub रिपॉजिटरी और Hugging Face मॉडल पेज से Dia प्राप्त कर सकते हैं। यह मॉडल PyTorch2.0+ और CUDA12.6 पर आधारित है, और इसके लिए लगभग 10GB VRAM की आवश्यकता होती है। नारी लैब्स भविष्य में CPU समर्थन और क्वांटाइज़्ड संस्करण प्रदान करने की योजना बना रहा है।

Dia को पूरी तरह से ओपन सोर्स Apache2.0 लाइसेंस के तहत वितरित किया जाता है, जो व्यावसायिक उपयोग की अनुमति देता है। नारी लैब्स ने इसे अनैतिक उद्देश्यों के लिए उपयोग करने से मना किया है और जिम्मेदार प्रयोग को प्रोत्साहित किया है। इस परियोजना को Google TPU Research Cloud, Hugging Face के ZeroGPU फंडिंग प्रोग्राम और अन्य संबंधित अनुसंधानों से समर्थन प्राप्त हुआ है। नारी लैब्स में केवल दो इंजीनियर हैं, लेकिन यह समुदाय की भागीदारी का सक्रिय रूप से स्वागत करता है।