AI संगीत निर्माण मॉडल MusiConGen: ट्रांसफार्मर के साथ संगीत निर्माण, ताल और акор्ड का सटीक नियंत्रण

AIbase基地

द्वारा प्रकाशितAI समाचार · 3 मिनट पढ़ें · Jul 24, 2024

304

2024 के अंतरराष्ट्रीय संगीत सूचना पुनर्प्राप्ति सम्मेलन (ISMIR) में, शोधकर्ताओं ने अपने नवीनतम विकसित MusiConGen मॉडल का प्रदर्शन किया। यह मॉडल एक Transformer-आधारित पाठ जनरेटिंग संगीत मॉडल है, जो समय-आधारित नियंत्रण तंत्र को शामिल करके संगीत की लय और हार्मनी पर नियंत्रण की क्षमता को महत्वपूर्ण रूप से बढ़ाता है।

उत्पाद प्रवेश: https://top.aibase.com/tool/musicongen

MusiConGen मॉडल पूर्व-प्रशिक्षित MusicGen-melody ढांचे के आधार पर फाइन-ट्यून किया गया है, जिसका मुख्य उद्देश्य विभिन्न शैलियों के संगीत टुकड़ों का निर्माण करना है। शोध टीम ने हार्मनी और लय के नियंत्रण पैरामीटर सेट करके, मॉडल द्वारा उत्पन्न संगीत नमूनों का प्रदर्शन किया, जो पाँच विभिन्न शैलियों को कवर करता है: आरामदायक ब्लूज़, स्मूद एसिड जैज़, क्लासिक रॉक, हाई-एनर्जी फंक और हेवी मेटल।

हर शैली के संगीत की स्पष्ट हार्मनी और लय आवश्यकताएँ होती हैं, ये डेटा RWC-pop-100 डेटाबेस से प्राप्त किए गए हैं, उत्पन्न हार्मनी का अनुमान BTC हार्मनी पहचान मॉडल द्वारा लगाया गया है।

MusiConGen के प्रभाव की पुष्टि करने के लिए, शोधकर्ताओं ने इसे बुनियादी मॉडल और फाइन-ट्यून किए गए बुनियादी मॉडल के साथ तुलना की। समान हार्मनी और लय नियंत्रण सेटिंग्स के माध्यम से, MusiConGen ने उत्पन्न संगीत नमूनों में उच्च सटीकता और शैली की स्थिरता प्रदर्शित की, जो संगीत निर्माण में इसकी तकनीकी श्रेष्ठता को दर्शाती है।

मुख्य बिंदु:
🎵 MusiConGen एक Transformer-आधारित पाठ जनरेटिंग संगीत मॉडल है, जो समय-आधारित नियंत्रण के माध्यम से लय और हार्मनी पर नियंत्रण को बढ़ाता है।
🔍 पारंपरिक मॉडल और फाइन-ट्यून मॉडल के साथ तुलना के माध्यम से, MusiConGen ने संगीत निर्माण में अपने महत्वपूर्ण सुधार को प्रदर्शित किया है।
🎸 मॉडल द्वारा उत्पन्न संगीत पाँच विभिन्न शैलियों को कवर करता है, जो विशेष हार्मनी और लय आवश्यकताओं को सटीक रूप से अनुकरण कर सकता है।

AI समाचार

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

एआई दैनिक: हान्ज़ी उत्पन्न कर सकता है! ज़िपू ओपन सोर्स टेक्स्ट-टू-इमेज मॉडल CogView4; बड़े मॉडल टूल Ollama में गंभीर सुरक्षा दोष; टेनसेंट युआनबाओ का डाउनलोड DeepSeek से अधिक

【एआई दैनिक】सेक्शन में आपका स्वागत है! यह आपका दैनिक मार्गदर्शक है जो आपको कृत्रिम बुद्धिमत्ता की दुनिया का पता लगाने में मदद करता है, हम रोज़ाना आपके लिए एआई क्षेत्र की प्रमुख खबरें लाते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, और आपको तकनीकी रुझानों और नवीन एआई उत्पाद अनुप्रयोगों को समझने में मदद करते हैं। नए एआई उत्पादों के बारे में जानने के लिए क्लिक करें: https://top.aibase.com/1、ज़िपू ने हान्ज़ी उत्पन्न करने वाला पहला ओपन सोर्स टेक्स्ट-टू-इमेज मॉडल CogView4 जारी किया 4 मार्च, 2025 को, बीजिंग ज़िपू हुआझांग टेक्नोलॉजी कंपनी लिमिटेड ने CogView4 जारी किया, जो हान्ज़ी उत्पन्न करने वाला पहला...

Mar 4, 2025

AI समाचार पत्र: एप्पल का सभी उत्पाद ChatGPT से जुड़े; 百度文库 ने पेशेवर PPT जनरेशन लॉन्च किया; गूगल की Gemini 2.0 का आगमन; ChatGPT का वैश्विक डाउनटाइम अब ठीक हो गया है

【AI समाचार पत्र】栏目 में आपका स्वागत है! यहाँ आपका दैनिक कृत्रिम बुद्धिमत्ता की दुनिया में अन्वेषण का मार्गदर्शक है, हम हर दिन आपको AI क्षेत्र की प्रमुख सामग्री प्रदान करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, आपको तकनीकी प्रवृत्तियों की समझ और नवीन AI उत्पादों के उपयोग के बारे में जानकारी देते हैं। नए AI उत्पादों के बारे में जानने के लिए क्लिक करें: https://top.aibase.com/1, एप्पल ने iOS18.2 का आधिकारिक संस्करण जारी किया: Siri को ChatGPT से जोड़ा गया है। एप्पल कंपनी ने आधिकारिक रूप से iOS18.2, iPadOS18.2 और macOS Sequoia 1 को जारी किया है।

Dec 12, 2024

360

पूर्व ट्विटर कार्यकारी द्वारा AI समाचार सहायक Particle का निर्माण: AI के माध्यम से समाचार पढ़ने के अनुभव को फिर से आकार देना, $15.3 मिलियन की निवेश प्राप्ति

वर्तमान मीडिया उद्योग में AI के प्रति सतर्क दृष्टिकोण के बीच, Particle नामक एक AI समाचार पढ़ने का ऐप इस स्थिति को बदलने की कोशिश कर रहा है। यह ऐप, जिसे पूर्व ट्विटर इंजीनियरों द्वारा विकसित किया गया है, उपयोगकर्ताओं को समाचार को और बेहतर तरीके से समझने में मदद करने का उद्देश्य रखता है, साथ ही पारंपरिक मीडिया संस्थानों के साथ सहयोग के लिए भी प्रयासरत है। Particle की स्थापना पूर्व ट्विटर उत्पाद प्रबंधन की वरिष्ठ निदेशिका सारा बेकपुर और पूर्व ट्विटर एवं टेस्ला के वरिष्ठ इंजीनियर मार्सल मोलिना ने की थी। कंपनी ने

Nov 13, 2024

3.0k

ElevenLabs Reader ऐप андроид पर लॉन्च होगा, जिसमें 32 नई भाषाओं का समर्थन शामिल होगा

ElevenLabs द्वारा पेश किया गया मोबाइल रीडर ऐप एंड्रॉइड प्लेटफॉर्म पर लॉन्च हुआ है, जो पाठ पाठन, PDF/ePub फ़ाइलों के पढ़ने और उच्च गुणवत्ता वाली AI वॉयस सिंथेसिस तकनीक को एक साथ लाता है, जिससे उपयोगकर्ता कभी भी और कहीं भी शानदार लेखों को सुन सकते हैं, चाहे पाठ पढ़ना कितना भी सुगम हो। यह अमेरिका, ब्रिटेन, और कनाडा की तीन भाषाओं का समर्थन करता है और 32 भाषाओं के साथ वैश्विक रूप से लॉन्च होने वाला है। इसकी उत्कृष्ट AI तकनीक जूडी गारलैंड, जेम्स डीन जैसे किंवदंतियों की आवाज़ों की नकल कर सकती है, जिससे उपयोगकर्ता व्यक्तिगत तरीके से पढ़ने का आनंद ले सकते हैं।

Jul 23, 2024

2.6k

जापान के सुपरमार्केट AI तकनीक के द्वारा कर्मचारियों की मुस्कान की निगरानी शुरू करते हैं, नेटिज़न्स का कहना है कि यह अनावश्यक है

जापान के योंग्वांग सुपरमार्केट ने AI प्रणाली Smile-Kun का उपयोग करते हुए कर्मचारियों की मुस्कान की निगरानी शुरू की है, जिसका उद्देश्य कर्मचारियों की मुस्कान और आवाज़ के विश्लेषण के माध्यम से सेवा कौशल को बढ़ाना है। यह प्रणाली कर्मचारियों से एक विशेष तरीके से अभिवादन करने का अनुरोध करती है, जिसमें 450 छोटे भावों के आधार पर स्कोरिंग की जाती है, जिसमें अधिकतम स्कोर 100 है, और यह सक्रिय प्रतिक्रिया प्रदान करती है। इसके अलावा, यह ध्वनि के स्तर, प्रवाह और उत्तेजना का विश्लेषण करके सुधार के सुझाव देती है। कर्मचारियों की प्रतिक्रिया दिखाती है कि मुस्कान का अनुपात काफी बढ़ गया है। हालांकि, इस कदम ने विवादों को जन्म दिया है, कुछ नेटिज़न्स ने आलोचना की है कि यह कर्मचारियों की व्यक्तिगत भावनाओं को अत्यधिक मात्रात्मक बनाने का प्रयास है, जो ईमानदार सेवा को व्यक्त करने में कठिनाई पैदा करता है। आलोचकों का मानना है कि यह शीर्षक और अधीनस्थ के बीच आधारित है।

Jul 23, 2024

1.5k

एलन मस्क का xAI अगले महीने Grok 2 जारी करेगा, Grok 3 की अपेक्षा दिसंबर में है

एलन मस्क ने घोषणा की कि उनकी xAI कंपनी अगले महीने जीपीटी-4 के समान प्रदर्शन करने वाले एआई मॉडल Grok 2 जारी करेगी, जबकि अधिक शक्तिशाली Grok 3 की अपेक्षा दिसंबर में है। यह मॉडल मेफिस के डेटा केंद्र में 15000+ GPU के साथ बड़े पैमाने पर प्रशिक्षण ले रहा है। हालांकि केवल कुछ टेस्ला वीडियो डेटा अभी तक मॉडल प्रशिक्षण में शामिल नहीं किया गया है, लेकिन ChatGPT की तुलना से यह स्पष्ट है कि कुछ क्षेत्रों में Grok की अभी भी कमी है, और रात में अधिग्रहण संदर्भ में प्रतिस्पर्धा करने में समय लगेगा।

Jul 23, 2024

2.0k

माइक्रोसॉफ्ट रिसर्च ने AI फ्रेमवर्क E5-V पेश किया: पाठ के जोड़ों के एकल-मोडल प्रशिक्षण के माध्यम से मल्टी-मोडल अध्ययन को सरल बनाना और लागत कम करना

माइक्रोसॉफ्ट रिसर्च और बीजिंग एरोस्पेस यूनिवर्सिटी की टीम ने E5-V नामक एक कुशल मल्टी-मोडल एम्बेडिंग फ्रेमवर्क पेश किया जो मल्टी-मोडल बड़े भाषा मॉडल (MLMs) के विकास में मौजूद चुनौतियों को हल करने के लिए डिजाइन किया गया है। यह नवोन्मेषी फ्रेमवर्क एकल-मोडल प्रशिक्षण के माध्यम से मल्टी-मोडल अध्ययन की प्रक्रिया को सरल बनाता है, और पिछले मॉडलों द्वारा स्वतंत्र एन्कोडर पर निर्भरता के कारण उत्पन्न होने वाली इनपुट एकीकरण की खराबी को दूर करता है। E5-V पाठ और चित्र की जानकारी को एकीकृत करके प्रशिक्षण लागत को कम करता है और पाठ-चित्र पुनर्प्राप्ति, चित्र पुनर्प्राप्ति जैसे कई जटिल कार्यों में उत्कृष्ट प्रदर्शन प्रदर्शित करता है, विशेषकर शून्य नमूने में।

Jul 23, 2024

2.0k

LensGo AI ने FaceSync फ़ीचर पेश किया: आपकी आवाज़ और चेहरे के हाव-भाव को लक्षित छवि पर स्थानांतरित करें

LensGo AI ने FaceSync पेश किया: यह उपयोगकर्ता के प्रदर्शन को छवि या वीडियो के साथ सिंक्रनाइज़ करता है, जिससे एक सहज दृश्य अनुभव मिलता है, उपयोगकर्ता स्वतंत्र रूप से व्यक्त कर सकता है बिना किसी छवि की सीमा के। AI तकनीक की मदद से, चेहरे के भाव, आवाज़, और मुंह के हाव-भाव को सटीकता से कैप्चर और मैप किया जाता है। यह वर्तमान में परीक्षण चरण में है, तकनीकी स्थिरता और प्रदर्शन को सुनिश्चित करने के लिए अनुकूलन किया जा रहा है, जिसका लक्ष्य उपयोगकर्ताओं की अपेक्षाओं और पेशेवर मानकों को पूरा करना है, अनंत रचनात्मक खोज की शुरुआत करना।

Jul 23, 2024

3.1k

AI जगत में हड़कंप! Llama 3.1 लीक: 4050 अरब पेरामीटर वाला ओपन-सोर्स दैत्य आ रहा है!

हाल ही में, 4050 अरब पेरामीटर वाला ओपन-सोर्स बड़े भाषा मॉडल LLama3.1 Reddit पर लीक हुआ है, जिसने व्यापक ध्यान आकर्षित किया है। इसे वर्तमान में GPT-4o के सबसे करीबी ओपन-सोर्स उत्पाद के रूप में देखा जा रहा है, और कुछ प्रदर्शन में GPT-4o को भी पीछे छोड़ दिया है। मॉडल को Meta (पूर्व में फेसबुक) द्वारा पेश किया गया है, जिसमें बेस और 70B संस्करण के बेंचमार्क परिणाम शामिल हैं, जो कई प्रदर्शन परीक्षणों में GPT-4o को पार कर गए हैं। LLama3.1 में बहु-भाषा समर्थन क्षमता और व्यापक प्रशिक्षण डेटा सेट (15T टोकन से अधिक) है।

Jul 23, 2024

2.8k

30 सेकंड में एक तस्वीर से 3D मॉडल! Aiuni AI: एक Unique 3D ओपन-सोर्स प्रोजेक्ट पर आधारित

डिजिटल युग में, 3D मॉडलिंग गेम, फिल्म, डिजाइन आदि उद्योगों में महत्वपूर्ण भूमिका निभाती है, लेकिन पारंपरिक मॉडलिंग विधियाँ अक्सर जटिल, समय-लंबा और महंगा होता है। इस समस्या को हल करने के लिए, एक वेबसाइट (Aiuni AI) AI तकनीक के माध्यम से किसी भी RGB चित्र से उच्च-विश्वसनीय 3D मॉडल उत्पन्न करती है, यह प्रक्रिया 30 सेकंड से कम समय में पूरी होती है। यह वेबसाइट Unique3D ओपन-सोर्स प्रोजेक्ट पर आधारित है, जो गहरे अध्ययन और विस्तार मॉडल तकनीक का उपयोग कर कुशलता को बढ़ाती है, इनपुट चित्र के लिए ऑर्थोगोनल मल्टी-व्यू इमेज और उसके नॉर्मल मैप का उत्पादन करती है। उपयोगकर्ता चित्र अपलोड करता है और 3D मॉडल चुनता है,

Jul 23, 2024

32.4k

AI समाचार

AI दैनिक

AI समयरेखा

अल हार्डवेयर

नवीनतम मामले

छवि संग्रह

वीडियो संग्रह

ऑडियो संग्रह

सामग्री संग्रह

नवीनतम ट्यूटोरियल

AI उत्पाद रैंकिंग

AI ट्रैफ़िक वृद्धि रैंकिंग

AI ट्रैफ़िक गिरावट रैंकिंग

AI साप्ताहिक रैंकिंग

संयुक्त राज्य अमेरिका

चीन

भारत

ब्राजील

छवि निर्माण

निजी सहायक

चरित्र निर्माण

वीडियो निर्माण

AI प्रोजेक्ट रैंकिंग

AI प्रोजेक्ट विकास रैंकिंग

AI डेवलपर रैंकिंग

AI संगठन रैंकिंग

डीपसीक

TTS

LLM

ChatGPT

अवलोकन

​AI संगीत निर्माण मॉडल MusiConGen: ट्रांसफार्मर के साथ संगीत निर्माण, ताल और акор्ड का सटीक नियंत्रण

AIbase基地

यह लेख AIbase दैनिक से है

संबंधित AI समाचार अनुशंसाएँ

ElevenLabs Reader ऐप андроид पर लॉन्च होगा, जिसमें 32 नई भाषाओं का समर्थन शामिल होगा

एलन मस्क का xAI अगले महीने Grok 2 जारी करेगा, Grok 3 की अपेक्षा दिसंबर में है

LensGo AI ने FaceSync फ़ीचर पेश किया: आपकी आवाज़ और चेहरे के हाव-भाव को लक्षित छवि पर स्थानांतरित करें

AI जगत में हड़कंप! Llama 3.1 लीक: 4050 अरब पेरामीटर वाला ओपन-सोर्स दैत्य आ रहा है!

30 सेकंड में एक तस्वीर से 3D मॉडल! Aiuni AI: एक Unique 3D ओपन-सोर्स प्रोजेक्ट पर आधारित

AI संगीत निर्माण मॉडल MusiConGen: ट्रांसफार्मर के साथ संगीत निर्माण, ताल और акор्ड का सटीक नियंत्रण