संगीत और ध्वनि निर्माण के क्षेत्र में, तकनीक और रचनात्मकता का संयोजन हमेशा कई चुनौतियों का सामना करता है। मौजूदा एआई मॉडल अक्सर केवल विशिष्ट कार्यों में माहिर होते हैं, व्यापक अनुकूलन क्षमता की कमी होती है, जिससे संगीत निर्माण में एआई की सहायक भूमिका सीमित हो जाती है। एआई को संगीत और ऑडियो उत्पादन में बेहतर सेवा देने के लिए, एक ऐसा सामान्य मॉडल की आवश्यकता है जो विभिन्न रचनात्मक आवश्यकताओं का लचीलापन से सामना कर सके। इस उद्देश्य के लिए, NVIDIA ने Fugatto लॉन्च किया है, जो 2.5 अरब पैरामीटर वाला ऑडियो जनरेशन और प्रोसेसिंग मॉडल है।
Fugatto का डिज़ाइन टेक्स्ट प्रॉम्प्ट और उन्नत ऑडियो सिंथेसिस क्षमताओं को मिलाकर उच्च लचीलापन वाली ध्वनि इनपुट और रचनात्मक प्रयोग का स्थान प्रदान करने के लिए किया गया है। उदाहरण के लिए, यह पियानो मेलोडी को मानव आवाज में बदल सकता है, या ट्रम्पेट से अप्रत्याशित ध्वनियाँ निकाल सकता है।
Fugatto न केवल टेक्स्ट इनपुट का समर्थन करता है, बल्कि वैकल्पिक ऑडियो इनपुट का भी समर्थन करता है, जो पारंपरिक ऑडियो जनरेशन मॉडल की सीमाओं को तोड़ता है, जिससे कलाकारों और डेवलपर्स को वास्तविक समय में रचनात्मकता और संशोधन करने की अनुमति मिलती है, नए प्रकार की ध्वनियों को सहजता से उत्पन्न करना।
तकनीकी दृष्टिकोण से, Fugatto ने एक नवोन्मेषी डेटा जनरेशन विधि का उपयोग किया है, जो पारंपरिक पर्यवेक्षित शिक्षण को पार करता है। इसका प्रशिक्षण न केवल सामान्य डेटा सेट पर निर्भर करता है, बल्कि विशेष रूप से उत्पन्न डेटा सेट को भी शामिल करता है, जिससे समृद्ध और विविध ऑडियो और परिवर्तन कार्यों का निर्माण होता है। इसके अलावा, Fugatto बड़े भाषा मॉडल (LLM) का उपयोग करके निर्देश जनरेशन क्षमता को बढ़ाता है, ताकि ऑडियो और टेक्स्ट प्रॉम्प्ट के बीच संबंध को बेहतर तरीके से समझा जा सके।
एक महत्वपूर्ण नवाचार "ComposableART" है, जो एक तकनीक है जिसका उपयोग इनफेरेंस के दौरान किया जाता है, जो विभिन्न ऑडियो जनरेशन निर्देशों को लचीले ढंग से संयोजित, इंटरपोलेट या नकारने की क्षमता प्रदान करती है। ComposableART उपयोगकर्ताओं को ऑडियो सिंथेसिस प्रक्रिया में अधिक नियंत्रण देता है, जिससे वे Fugatto के ध्वनि पैलेट को सटीक रूप से नेविगेट कर सकते हैं और अद्वितीय ध्वनि घटनाएँ उत्पन्न कर सकते हैं।
Fugatto की संरचना एक उन्नत ट्रांसफार्मर मॉडल पर आधारित है, जिसमें अनुकूलन स्तर सामान्यीकरण जैसे विशेष संशोधन शामिल हैं, जो विभिन्न इनपुट स्थितियों में स्थिरता बनाए रखते हैं और जटिल संयोजन निर्देशों का समर्थन करते हैं। प्रारंभिक परीक्षणों से पता चलता है कि Fugatto सामान्य बेंचमार्क परीक्षणों में अच्छा प्रदर्शन करता है, विशेष रूप से ध्वनि सिंथेसिस और परिवर्तन के मामले में, अन्य पेशेवर मॉडलों की तुलना में अधिक क्षमता प्रदर्शित करता है।
Fugatto का लॉन्च ऑडियो जनरेशन एआई में एक महत्वपूर्ण प्रगति का प्रतीक है, जो पारंपरिक सीमाओं को तोड़ता है और रचनात्मक ऑडियो उत्पादन के लिए एक मजबूत और लचीला उपकरण प्रदान करता है। इसके संगीत, खेल, मनोरंजन और शिक्षा जैसे कई क्षेत्रों में संभावित अनुप्रयोगों का अर्थ है कि एआई तकनीक मानव रचनात्मकता को बढ़ावा देने में महत्वपूर्ण भूमिका निभाती रहेगी।
आधिकारिक ब्लॉग: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/
पत्र: https://d1qx31qr3h6wln.cloudfront.net/publications/FUGATTO.pdf
मुख्य बिंदु:
🎵 Fugatto NVIDIA द्वारा लॉन्च किया गया ऑडियो एआई मॉडल है, जिसमें 2.5 अरब पैरामीटर हैं, जो टेक्स्ट और ऑडियो इनपुट का समर्थन करता है, संगीत और ध्वनि निर्माण में मदद करता है।
💻 यह नवोन्मेषी डेटा जनरेशन विधियों औरComposable ऑडियो प्रतिनिधित्व परिवर्तन तकनीक का उपयोग करता है, जिससे उपयोगकर्ता ध्वनियों को लचीले ढंग से उत्पन्न और संशोधित कर सकते हैं।
🌟 प्रारंभिक परीक्षणों से पता चलता है कि Fugatto ऑडियो सिंथेसिस और परिवर्तन में कई पेशेवर मॉडलों की तुलना में बेहतर प्रदर्शन करता है, जो इसकी शक्तिशाली रचनात्मक क्षमता को दर्शाता है।