क्रांतिकारी ओपन सोर्स TTS मॉडल Dia जारी: भावनाएँ, गैर-भाषाई संकेत पूर्ण समर्थन, वास्तविक मानव वार्तालाप के समान

AIbase基地

द्वारा प्रकाशितAI समाचार · 6 मिनट पढ़ें · Apr 23, 2025

नारी लैब्स नामक एक दो-व्यक्ति स्टार्टअप ने Dia जारी किया है, जो एक 1.6 बिलियन पैरामीटर टेक्स्ट-टू-स्पीच (TTS) मॉडल है जिसका उद्देश्य सीधे टेक्स्ट प्रॉम्प्ट से प्राकृतिक वार्तालाप उत्पन्न करना है। इसके सह-संस्थापक टोबी किम का दावा है कि Dia का प्रदर्शन ElevenLabs जैसे प्रतिस्पर्धियों के मालिकाना उत्पादों और Google के नोटबुकLM AI पॉडकास्ट जेनरेशन फीचर से बेहतर है, और यह हाल ही में जारी किए गए OpenAI के gpt-4o-mini-tts को भी चुनौती दे सकता है।

किम ने सोशल मीडिया X पर कहा कि Dia की गुणवत्ता नोटबुकLM के पॉडकास्ट फीचर के बराबर है और ElevenLabs Studio और Sesame के ओपन मॉडल से बेहतर है। उन्होंने बताया कि यह मॉडल "शून्य धन" में बनाया गया था और उन्होंने इस बात पर जोर दिया कि वे शुरू में AI विशेषज्ञ नहीं थे, बल्कि नोटबुकLM के पॉडकास्ट फीचर के प्रति उनके प्यार ने उन्हें यह प्रोजेक्ट शुरू करने के लिए प्रेरित किया। उन्होंने बाजार में उपलब्ध सभी TTS API का प्रयास किया, लेकिन कोई भी पर्याप्त प्राकृतिक नहीं था। किम ने Google को Dia को प्रशिक्षित करने के लिए अपने टेंसर प्रोसेसिंग यूनिट चिप्स (TPU) का उपयोग करने की अनुमति देने के लिए धन्यवाद दिया।

वर्तमान में, Dia का कोड और वज़न Hugging Face और Github पर ओपन सोर्स है, जिसे उपयोगकर्ता डाउनलोड और स्थानीय रूप से तैनात कर सकते हैं। व्यक्तिगत उपयोगकर्ता Hugging Face Space पर ऑनलाइन भी इसका अनुभव कर सकते हैं।

ध्वनि नियंत्रण

उन्नत नियंत्रण और अधिक अनुकूलन योग्य सुविधाएँ

Dia में भावनात्मक स्वर, स्पीकर मार्कर और गैर-भाषाई ऑडियो संकेत जैसे (हँसी), (खांसी), (गला साफ़ करना) जैसी सूक्ष्म सुविधाएँ शामिल हैं, ये सभी केवल शुद्ध पाठ के माध्यम से प्राप्त होते हैं। नारी लैब्स के उदाहरण से पता चलता है कि Dia इन लेबलों की सही व्याख्या करने में सक्षम है, जबकि अन्य मॉडल अक्सर विश्वसनीय रूप से समर्थन नहीं कर पाते हैं। यह मॉडल वर्तमान में केवल अंग्रेजी का समर्थन करता है, और आवाज हर रन पर अलग-अलग होती है, जब तक कि उपयोगकर्ता जनरेटिंग सीड को संशोधित नहीं करता है या वॉयस क्लोनिंग के लिए ऑडियो प्रॉम्प्ट प्रदान नहीं करता है।

नारी लैब्स ने अपनी वेबसाइट पर Dia, ElevenLabs Studio और Sesame CSM-1B की तुलनात्मक उदाहरण प्रदान किए हैं, जो प्राकृतिक लय, गैर-भाषाई अभिव्यक्ति, बहु-भावनात्मक वार्तालाप, जटिल लय वाली सामग्री और ऑडियो संकेतों के माध्यम से भाषण शैली को जारी रखने के मामले में Dia की श्रेष्ठता को दर्शाते हैं। नारी लैब्स ने बताया कि Sesame के प्रदर्शन में संभवतः इसके आंतरिक बड़े पैरामीटर वाले संस्करण का उपयोग किया गया है।

मॉडल पहुँच और तकनीकी विशिष्टताएँ

डेवलपर्स नारी लैब्स के GitHub रिपॉजिटरी और Hugging Face मॉडल पेज से Dia प्राप्त कर सकते हैं। यह मॉडल PyTorch2.0+ और CUDA12.6 पर आधारित है, और इसके लिए लगभग 10GB VRAM की आवश्यकता होती है। नारी लैब्स भविष्य में CPU समर्थन और क्वांटाइज़्ड संस्करण प्रदान करने की योजना बना रहा है।

Dia को पूरी तरह से ओपन सोर्स Apache2.0 लाइसेंस के तहत वितरित किया जाता है, जो व्यावसायिक उपयोग की अनुमति देता है। नारी लैब्स ने इसे अनैतिक उद्देश्यों के लिए उपयोग करने से मना किया है और जिम्मेदार प्रयोग को प्रोत्साहित किया है। इस परियोजना को Google TPU Research Cloud, Hugging Face के ZeroGPU फंडिंग प्रोग्राम और अन्य संबंधित अनुसंधानों से समर्थन प्राप्त हुआ है। नारी लैब्स में केवल दो इंजीनियर हैं, लेकिन यह समुदाय की भागीदारी का सक्रिय रूप से स्वागत करता है।

टेक्स्ट-टू-स्पीच (TTS) मॉडल Dia NariLabs 1.6 बिलियन पैरामीटर

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

Nvidia पहली बार अमेरिका में AI सुपरकंप्यूटर बनाएगा, स्वनिर्भर आपूर्ति श्रृंखला का निर्माण करेगा

Apr 23, 2025

Rapid Advancement of AI in Advertising: Publishers Leading the Way

According to a 2025 early release study by the Interactive Advertising Bureau (IAB), while the adoption of Artificial Intelligence (AI) in advertising is rising, only 30% of advertising professionals have fully integrated AI into their media advertising lifecycle. The study reveals that while agencies and brands primarily leverage AI for audience identification and targeting, publishers are more inclined to utilize AI for ad inventory forecasting and demand analysis. The survey highlights two major challenges facing the advertising industry in AI adoption...

Apr 21, 2025

गूगल ने जारी किया जेममा 3 QAT मॉडल: 3090 ग्राफिक्स कार्ड से भी आसानी से चलाया जा सकता है

गूगल ने हाल ही में जेममा3 श्रृंखला का एक नया संस्करण जारी किया है, जिससे कई AI उत्साही उत्साहित हैं। लॉन्च होने के केवल एक महीने बाद, गूगल ने मात्रा-संवेदनशील प्रशिक्षण (QAT) द्वारा अनुकूलित जेममा3 जारी किया है, जिसका उद्देश्य मेमोरी की आवश्यकता को कम करते हुए मॉडल की उच्च गुणवत्ता बनाए रखना है। विशेष रूप से, QAT द्वारा अनुकूलित जेममा3 27B मॉडल की मेमोरी आवश्यकता 54GB से घटकर 14.1GB हो गई है, जिसका अर्थ है कि उपयोगकर्ता अब NVIDIA RTX3090 पर...

Apr 21, 2025

अमेरिका में AI चिप्स के निर्माण की योजना बना रही है NVIDIA, घरेलू उत्पादन पर जोर

हाल ही में, NVIDIA ने घोषणा की है कि वह अमेरिका के एरिजोना और टेक्सास में AI चिप्स के उत्पादन और परीक्षण के लिए दस लाख वर्ग फुट से अधिक के निर्माण स्थान स्थापित करेगी। यह NVIDIA का एक महत्वपूर्ण कदम है जिससे वह अपने कुछ उत्पादन को अमेरिका वापस लाना चाहती है। बताया गया है कि NVIDIA के Blackwell चिप्स का उत्पादन ताइवान सेमीकंडक्टर मैन्युफैक्चरिंग कंपनी (TSMC) के एरिजोना स्थित कारखाने में शुरू हो चुका है। इसके अलावा, NVIDIA टेक्सास में एक "सुपरकंप्यूटर" निर्माण संयंत्र भी स्थापित कर रही है, जिसमें ह्यूस्टन में फॉक्सकॉन और डलास में विस्ट्रॉन के साथ साझेदारी की गई है। एरिजोना में, NVIDIA ने अँकॉर और

Apr 15, 2025

एक ट्रिलियन डॉलर के AI भविष्य पर दांव: NVIDIA ने पहली बार घरेलू स्तर पर AI सुपरकंप्यूटर बनाया

कृत्रिम बुद्धिमत्ता चिप की दिग्गज कंपनी NVIDIA ने घोषणा की है कि वह अपने विनिर्माण भागीदारों के साथ मिलकर पहली बार अमेरिका में ही अपने AI सुपरकंप्यूटर को डिजाइन और निर्माण करेगी, जो आपूर्ति श्रृंखला रणनीति में एक महत्वपूर्ण कदम है। NVIDIA ने अपने नवीनतम Blackwell AI चिप के उत्पादन और परीक्षण के लिए एरिजोना में 10 लाख वर्ग फुट से अधिक निर्माण स्थान आवंटित किया है, और टेक्सास में AI सुपरकंप्यूटर के निर्माण और परीक्षण के लिए भी। NVIDIA के पारिस्थितिकी तंत्र भागीदारों से इन AI अवसंरचनाओं के निर्माण के समर्थन में 50 करोड़ डॉलर का निवेश करने की उम्मीद है। हालाँकि, NVIDIA ने...

Apr 15, 2025

गूगल ने लॉन्च किया वर्टेक्स AI मीडिया स्टूडियो टेक्स्ट-टू-वीडियो किट, वीडियो निर्माण प्रक्रिया में क्रांति

9 अप्रैल, 2025 को, गूगल ने आधिकारिक तौर पर वर्टेक्स AI मीडिया स्टूडियो टेक्स्ट-टू-वीडियो किट लॉन्च करने की घोषणा की, यह एक नया प्लेटफ़ॉर्म है जिसका उद्देश्य कृत्रिम बुद्धिमत्ता तकनीक के माध्यम से वीडियो सामग्री निर्माण प्रक्रिया को सरल बनाना है, उपयोगकर्ताओं को टेक्स्ट से पूर्ण वीडियो तक एक-स्टॉप समाधान प्रदान करना है। इस खबर ने तकनीकी क्षेत्र और सामग्री निर्माताओं का व्यापक ध्यान आकर्षित किया है। वीडियो सामग्री की पूरी तरह से स्वचालित पीढ़ी वर्टेक्स AI मीडिया स्टूडियो गूगल के कई अत्याधुनिक AI मॉडल को एकीकृत करता है, जिनमें I शामिल हैं

Apr 10, 2025

क्वांटम AI स्टार्टअप SandboxAQ ने $4.5 अरब डॉलर जुटाए, Google और Nvidia ने मिलकर किया निवेश

हाल ही में, क्वांटम आर्टिफिशियल इंटेलिजेंस स्टार्टअप SandboxAQ ने E-सीरीज फंडिंग में $4.5 अरब डॉलर जुटाने की घोषणा की है। इस दौर में कई दिग्गज कंपनियों ने निवेश किया है, जिनमें Google, Nvidia और BNP Paribas शामिल हैं, जिससे SandboxAQ का कुल फंडिंग $9.5 अरब डॉलर हो गया है। कंपनी का कहना है कि इस धन का उपयोग बड़े क्वांटम मॉडल के विकास में तेजी लाने और विभिन्न उद्योगों के साथ सहयोग को बढ़ावा देने के लिए किया जाएगा।चित्र विवरण: यह चित्र AI द्वारा बनाया गया है, और छवि लाइसेंसिंग सेवा प्रदाता MidjourneySan से प्राप्त हुई है।

Apr 10, 2025

गूगल डिस्ट्रिब्यूटेड क्लाउड, Gemini और NVIDIA के साथ मिलकर उद्यमों में स्थानीय AI परिनियोजन को आगे बढ़ाता है

Apr 10, 2025

क्वार्ट्ज बेचा गया और बड़ी छंटनी हुई, AI सामग्री परिवर्तन विवादों में

Apr 9, 2025

एन्वीडिया ने लॉन्च किया Llama3.1 नेमोट्रॉन अल्ट्रा 253B, जिसका प्रदर्शन Llama 4 बिहेमोथ से बेहतर है

Apr 9, 2025

AI समाचार

AI दैनिक

AI समयरेखा

अल हार्डवेयर

नवीनतम मामले

छवि संग्रह

वीडियो संग्रह

ऑडियो संग्रह

सामग्री संग्रह

नवीनतम ट्यूटोरियल

AI उत्पाद रैंकिंग

AI ट्रैफ़िक वृद्धि रैंकिंग

AI ट्रैफ़िक गिरावट रैंकिंग

AI साप्ताहिक रैंकिंग

संयुक्त राज्य अमेरिका

चीन

भारत

ब्राजील

छवि निर्माण

निजी सहायक

चरित्र निर्माण

वीडियो निर्माण

AI प्रोजेक्ट रैंकिंग

AI प्रोजेक्ट विकास रैंकिंग

AI डेवलपर रैंकिंग

AI संगठन रैंकिंग

डीपसीक

TTS

LLM

ChatGPT

अवलोकन

क्रांतिकारी ओपन सोर्स TTS मॉडल Dia जारी: भावनाएँ, गैर-भाषाई संकेत पूर्ण समर्थन, वास्तविक मानव वार्तालाप के समान

AIbase基地

उन्नत नियंत्रण और अधिक अनुकूलन योग्य सुविधाएँ

मॉडल पहुँच और तकनीकी विशिष्टताएँ

यह लेख AIbase दैनिक से है

संबंधित AI समाचार अनुशंसाएँ

Nvidia पहली बार अमेरिका में AI सुपरकंप्यूटर बनाएगा, स्वनिर्भर आपूर्ति श्रृंखला का निर्माण करेगा

Rapid Advancement of AI in Advertising: Publishers Leading the Way

गूगल ने जारी किया जेममा 3 QAT मॉडल: 3090 ग्राफिक्स कार्ड से भी आसानी से चलाया जा सकता है

अमेरिका में AI चिप्स के निर्माण की योजना बना रही है NVIDIA, घरेलू उत्पादन पर जोर

एक ट्रिलियन डॉलर के AI भविष्य पर दांव: NVIDIA ने पहली बार घरेलू स्तर पर AI सुपरकंप्यूटर बनाया

गूगल ने लॉन्च किया वर्टेक्स AI मीडिया स्टूडियो टेक्स्ट-टू-वीडियो किट, वीडियो निर्माण प्रक्रिया में क्रांति

क्वांटम AI स्टार्टअप SandboxAQ ने $4.5 अरब डॉलर जुटाए, Google और Nvidia ने मिलकर किया निवेश

गूगल डिस्ट्रिब्यूटेड क्लाउड, Gemini और NVIDIA के साथ मिलकर उद्यमों में स्थानीय AI परिनियोजन को आगे बढ़ाता है

क्वार्ट्ज बेचा गया और बड़ी छंटनी हुई, AI सामग्री परिवर्तन विवादों में

एन्वीडिया ने लॉन्च किया Llama3.1 नेमोट्रॉन अल्ट्रा 253B, जिसका प्रदर्शन Llama 4 बिहेमोथ से बेहतर है