क्या आपको विज्ञान कथा फिल्मों में वह दृश्य याद है, जब मुख्य पात्र जादुई छड़ी लहराते हुए ध्वनि को नियंत्रित कर सकता है? अब, यह अद्भुत क्षमता एक कल्पना नहीं रही! NVIDIA ने हाल ही में AI मॉडल Fugatto पेश किया है, जो एक "ध्वनि जादू की छड़ी" की तरह है, जिससे उपयोगकर्ता केवल टेक्स्ट के माध्यम से संगीत, ध्वनि और वॉयस को नियंत्रित कर सकते हैं, और विभिन्न अद्भुत श्रवण प्रभाव पैदा कर सकते हैं।
Fugatto, जिसका पूरा नाम "Foundational Generative Audio Transformer Opus1" है, एक ऑडियो प्रोसेसिंग मॉडल है जो जनरेटिव AI तकनीक पर आधारित है। अन्य AI मॉडल जो केवल संगीत बनाने या वॉयस को संशोधित करने में सक्षम हैं, के मुकाबले, Fugatto में अधिक शक्तिशाली क्षमताएँ हैं, जो किसी भी संगीत, वॉयस और ध्वनि का मिश्रण उत्पन्न या परिवर्तित कर सकता है, और उपयोगकर्ता द्वारा टेक्स्ट और ऑडियो फ़ाइलों के माध्यम से दिए गए निर्देशों को समझ और कार्यान्वित कर सकता है।
Fugatto की शक्तिशाली क्षमताएँ संगीत निर्माताओं, विज्ञापन कंपनियों, भाषा सीखने के उपकरण डेवलपर्स और गेम डेवलपर्स जैसे विभिन्न क्षेत्रों के उपयोगकर्ताओं को चकित कर रही हैं। संगीत निर्माता इसका उपयोग विभिन्न संगीत शैलियों, मानव आवाजों और वाद्य यंत्रों का तेजी से परीक्षण करने के लिए कर सकते हैं, और यहां तक कि मौजूदा गानों में प्रभाव जोड़ सकते हैं या ध्वनि गुणवत्ता को बढ़ा सकते हैं। विज्ञापन कंपनियाँ इसका उपयोग विज्ञापनों के लिए विभिन्न लहजे और भावनाएँ जोड़ने के लिए कर सकती हैं, जिससे विज्ञापनों को विभिन्न क्षेत्रों और लक्षित दर्शकों में आसानी से बढ़ावा दिया जा सके। भाषा सीखने के उपकरण डेवलपर्स Fugatto का उपयोग पाठ्यक्रम सामग्री को किसी भी उपयोगकर्ता की इच्छित आवाज में परिवर्तित करने के लिए कर सकते हैं, जैसे परिवार या दोस्तों की आवाज, जिससे सीखने को और अधिक व्यक्तिगत बनाया जा सके। गेम डेवलपर्स Fugatto का उपयोग खेल की प्रगति के अनुसार वास्तविक समय में खेल में ध्वनि सामग्री को संशोधित करने के लिए कर सकते हैं, या टेक्स्ट निर्देशों और ऑडियो इनपुट के आधार पर पूरी तरह से नए गेम ध्वनि प्रभाव बना सकते हैं।
Fugatto की जादुई विशेषता यह है कि यह मानव की तरह ध्वनि को समझ और उत्पन्न कर सकता है। यह न केवल उपयोगकर्ता द्वारा दिए गए विशिष्ट निर्देशों को निष्पादित कर सकता है, बल्कि अद्वितीय नई ध्वनियाँ भी उत्पन्न कर सकता है। उदाहरण के लिए, यह तुरही से कुत्ते की भौंकने की आवाज निकाल सकता है, और सैक्सोफोन से बिल्ली की आवाज निकाल सकता है, बस उपयोगकर्ता को इसका वर्णन करना है, Fugatto इसे बना सकता है।
छवि स्रोत नोट: छवि AI द्वारा उत्पन्न, छवि लाइसेंस सेवा प्रदाता Midjourney
Fugatto की एक और क्रांतिकारी क्षमता यह है कि यह प्रशिक्षण के दौरान अलग-अलग सीखे गए निर्देशों को संयोजित करके अधिक जटिल प्रभाव उत्पन्न कर सकता है। उदाहरण के लिए, उपयोगकर्ता इसे एक दुखद भावना के साथ फ्रेंच लहजे में आवाज उत्पन्न करने के लिए कह सकता है। और भी आश्चर्यजनक यह है कि Fugatto उपयोगकर्ताओं को निर्देशों में सूक्ष्म समायोजन करने की अनुमति देता है, जैसे लहजे की गहराई या दुख की भावना की तीव्रता को नियंत्रित करना, जिससे उपयोगकर्ता कलाकार की तरह रचनात्मकता का अनुभव कर सके।
Fugatto समय के साथ बदलने वाली ध्वनियाँ भी उत्पन्न कर सकता है, जैसे एक तूफान दूर से करीब आ रहा है, गड़गड़ाहट धीरे-धीरे बढ़ती है, और फिर धीरे-धीरे दूर हो जाती है। उपयोगकर्ता ध्वनि के परिवर्तन की प्रक्रिया को सटीक रूप से नियंत्रित कर सकते हैं, जिससे विभिन्न जीवंत ध्वनि प्रभाव उत्पन्न हो सकते हैं।
Fugatto एक वैश्विक टीम द्वारा विकसित एक उपलब्धि है, जिसमें भारत, ब्राज़ील, चीन, जॉर्डन और दक्षिण कोरिया जैसे देशों के सदस्य शामिल हैं। उनकी विविध पृष्ठभूमि Fugatto को अधिक शक्तिशाली बहु-लहजे और बहु-भाषा प्रोसेसिंग क्षमताएँ प्रदान करती है।
Fugatto का निर्माण NVIDIA के वर्षों के शोध का परिणाम है, जो वॉयस मॉडलिंग, ऑडियो एन्कोडिंग और ऑडियो समझ के क्षेत्रों में है। इसका उपयोग 2.5 बिलियन पैरामीटर के साथ किया गया है, और इसे 32 NVIDIA H100 Tensor Core GPU वाले NVIDIA DGX सिस्टम क्लस्टर पर प्रशिक्षित किया गया है।
Fugatto की उपस्थिति ऑडियो प्रोसेसिंग तकनीक के एक नए युग की शुरुआत का प्रतीक है। यह संगीत, फिल्म, गेम, शिक्षा और अन्य क्षेत्रों में अनंत संभावनाएँ लाएगा, आइए हम सभी मिलकर इसके द्वारा और अधिक अद्भुत श्रवण अनुभवों की रचना की प्रतीक्षा करें!
आधिकारिक ब्लॉग: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/