स्टेबिलिटी एआई का ओपन-सोर्स ऑडियो जनरेशन मॉडल स्टेबल ऑडियो ओपन: 47 सेकंड का स्टीरियो ऑडियो जनरेट कर सकता है

AIbase基地

द्वारा प्रकाशितAI समाचार · 5 मिनट पढ़ें · Jul 23, 2024

168

हाल ही में, Stability AI टीम ने एक नई ओपन-सोर्स ऑडियो जनरेशन मॉडल लॉन्च की है, जिसका नाम Stable Audio Open है। इस मॉडल की खासियत यह है कि यह टेक्स्ट प्रॉम्प्ट से 47 सेकंड तक की स्टेरियो ऑडियो जनरेट कर सकता है, जिसकी सैंपलिंग दर 44.1kHz तक है।

उत्पाद का लिंक:https://top.aibase.com/tool/stable-audio-open-demo

विभिन्न वर्तमान लोकप्रिय ऑडियो जनरेशन मॉडलों के विपरीत, Stable Audio Open के वेट्स खुले हैं, जिसका मतलब है कि कोई भी इस मॉडल को देख सकता है, संशोधित कर सकता है और विस्तारित कर सकता है। इस प्रकार की डिज़ाइन सोच न केवल वैज्ञानिक अनुसंधान की प्रगति को बढ़ावा देती है, बल्कि डेवलपर्स को और अधिक संभावनाएं प्रदान करती है। सबसे महत्वपूर्ण बात यह है कि इस मॉडल को केवल क्रिएटिव कॉमन्स लाइसेंस प्राप्त ऑडियो फ़ाइलों का उपयोग करके प्रशिक्षित किया गया है, जिससे डेटा की वैधता सुनिश्चित होती है और संभावित कॉपीराइट मुद्दों से बचा जाता है, जो नैतिक डेटा उपयोग के प्रति उच्च प्राथमिकता को दर्शाता है।

तकनीकी आर्किटेक्चर के मामले में, Stable Audio Open ने उन्नत आर्किटेक्चर का उपयोग किया है, जो टेक्स्ट से ऑडियो जनरेशन की उच्च विश्वसनीयता सुनिश्चित करता है। यह उच्च गुणवत्ता वाली स्टेरियो ऑडियो जनरेट कर सकता है, जिससे उपयोगकर्ताओं को स्पष्ट और वास्तविक ध्वनि अनुभव का आनंद मिलता है। प्रशिक्षण के दौरान, मॉडल ने विभिन्न प्रकार के ऑडियो सैंपल से संपर्क किया, जिससे यह अधिक समृद्ध ध्वनि परिदृश्य सीखने में मदद मिली, जिससे जनरेट की गई ऑडियो और अधिक वास्तविक और विविध हो गई।

इसके अलावा, नए मॉडल के प्रदर्शन को उद्योग के शीर्ष मॉडलों के साथ तुलना करने के लिए, विकास टीम ने व्यापक प्रदर्शन मूल्यांकन किया। FDopenl3 जैसे प्रमुख मूल्यांकन मानक के माध्यम से, शोधकर्ताओं ने पाया कि इस मॉडल ने उच्च गुणवत्ता वाली ऑडियो जनरेशन में अच्छा प्रदर्शन किया, जो उद्योग के अन्य उत्कृष्ट मॉडलों के समान है। यह तुलना अध्ययन Stable Audio Open की श्रेष्ठता और व्यावहारिकता को और प्रमाणित करता है।

Stable Audio Open का लॉन्च न केवल खुलापन और उच्च गुणवत्ता वाली ऑडियो संश्लेषण पर ध्यान केंद्रित करता है, बल्कि शोधकर्ताओं, कलाकारों और डेवलपर्स के लिए एक महत्वपूर्ण उपकरण भी प्रदान करता है।

मुख्य बिंदु:
- 🎧 Stability AI ने Stable Audio Open लॉन्च किया, जो लंबाई (अधिकतम 47 सेकंड) और 44.1kHz स्टेरियो ऑडियो जनरेट करने का समर्थन करता है।
- 📝 इस मॉडल ने केवल क्रिएटिव कॉमन्स लाइसेंस प्राप्त ऑडियो डेटा का उपयोग करके प्रशिक्षण लिया है, जिससे डेटा की वैधता और नैतिकता सुनिश्चित होती है।
- 🔍 उद्योग के शीर्ष मॉडलों की तुलना में, Stable Audio Open की ऑडियो जनरेशन गुणवत्ता को सत्यापित किया गया है, जिसमें उच्च विश्वसनीयता और विविधता है।

AI वॉयसओवर चुनौती असली! 5000 ऑस्ट्रेलियाई अभिनेता बेरोजगारी का सामना कर रहे हैं

ऑस्ट्रेलिया में, आर्टिफिशियल इंटेलिजेंस तकनीक के तेजी से विकास के साथ, वॉयसओवर उद्योग के स्थानीय पेशेवरों को अभूतपूर्व चुनौतियों का सामना करना पड़ रहा है। रिपोर्टों के अनुसार, लगभग 5000 ऑस्ट्रेलियाई वॉयसओवर कलाकारों की नौकरियों को खतरा है, मुख्य कारण यह है कि सस्ते एआई जनित आवाजें मानव वॉयसओवर को चुनौती देना शुरू कर रही हैं। AAVA (ऑस्ट्रेलियन वॉयसओवर आर्टिस्ट्स असोसिएशन) को चिंता है कि आर्टिफिशियल इंटेलिजेंस पूरी तरह से मानव वॉयसओवर कार्यों का स्थान ले सकता है। AAVA के अध्यक्ष साइमोन केनेडी ने कहा कि आर्टिफिशियल इंटेलिजेंस का वॉयसओवर उद्योग पर प्रभाव इस संघ की स्थापना के कुछ कारणों में से एक है, लेकिन वे तकनीक का विरोध नहीं कर रहे हैं, बल्कि वे दृश्यता की आवश्यकता है।

Claude का एंड्रॉइड ऐप: क्या यह ChatGPT की प्रमुख स्थिति को चुनौती दे सकता है?

Anthropic ने घोषणा की है कि उनके प्रसिद्ध चैटबॉट Claude का एंड्रॉइड ऐप आधिकारिक तौर पर लॉन्च हो गया है। यह संकेत देता है कि Claude न केवल अपने उन्नत कृत्रिम बुद्धिमत्ता के माध्यम से उपयोगकर्ताओं के साथ प्राकृतिक इंटरैक्शन करके कार्यों को हल करने और नवाचार सहयोग को बढ़ाता है, बल्कि नए Claude Vision फीचर के माध्यम से छवि सामग्री को भी解析 करता है, AI के उपयोग के क्षेत्र को विस्तारित करता है। OpenAI के प्रसिद्ध उत्पाद ChatGPT की तुलना में, Anthropic विशेष रूप से उपयोगकर्ता गोपनीयता पर ध्यान केंद्रित करता है और उपयोगकर्ता इंटरैक्शन डेटा का उपयोग AI मॉडल को प्रशिक्षित करने के लिए नहीं करता है।

Exa AI: Google का AI क्षेत्र, वास्तविक AI खोज इंजन आ गया है!

Exa AI, एक नया उद्यम जो AI तकनीक के माध्यम से खोज अनुभव को क्रांतिकारी बनाने के लिए समर्पित है, ने 17 मिलियन डॉलर की श्रृंखला A फंडिंग प्राप्त करने की घोषणा की है, जिसे Lightspeed, Nvidia के NVentures और Y Combinator द्वारा सहारा मिला है। पारंपरिक खोज इंजनों से भिन्न, Exa AI को AI के लिए विशेष रूप से डिज़ाइन किए गए खोज उपकरण के रूप में定位 किया गया है, जो जानकारी के सैलाब में ज्ञान के खजाने को निकालने का प्रयास करता है। इसकी मुख्य ताकत निम्नलिखित पहलुओं में निहित है: 1. **डेटा संगठन और छंटाई**: वेक्टर डेटाबेस और एम्बेडिंग मॉडल का उपयोग करें।

Qwen2-Audio: प्रश्न श्रृंखला का ऑडियो मल्टीमॉडल मॉडल बिना टेक्स्ट के वॉयस इंटरैक्शन

अलीबाबा क्लाउड ने 'Qwen-Audio' लॉन्च किया, एक बड़ा ऑडियो भाषा मॉडल जो वॉयस इंटरैक्शन अनुभव को नवाचार करता है। यह मॉडल विभिन्न ऑडियो इनपुट स्वीकार कर सकता है, ऑडियो विश्लेषण करता है और सीधे वॉयस कमांड का जवाब देता है। उपयोगकर्ता अद्वितीय ऑडियो इंटरैक्शन मोड प्रदान कर सकते हैं, जिसमें टेक्स्ट इनपुट की आवश्यकता नहीं है, सीधे वॉयस के जरिए संवाद करते हैं, और ऑडियो में ध्वनि और टेक्स्ट विश्लेषण प्रदान करते हैं। इसमें बुद्धिमान समझने की क्षमता है, जो विभिन्न ऑडियो स्रोतों के कमांड को मिलाकर解析 कर सकती है, जैसे कि एकल आवाज, मल्टीचैनल बातचीत और आदेशों को भेदित करना, और ऑडियो व्याख्या और प्रतिक्रिया में सहायता करना। प्रदर्शन पहले के उत्कृष्ट मॉडलों से बेहतर है, विशेषकर ऑडियो के आधार पर।

AI समाचार

स्टेबिलिटी एआई का ओपन-सोर्स ऑडियो जनरेशन मॉडल स्टेबल ऑडियो ओपन: 47 सेकंड का स्टीरियो ऑडियो जनरेट कर सकता है

AIbase基地

संबंधित AI समाचार अनुशंसाएँ

AI वॉयसओवर चुनौती असली! 5000 ऑस्ट्रेलियाई अभिनेता बेरोजगारी का सामना कर रहे हैं

Claude का एंड्रॉइड ऐप: क्या यह ChatGPT की प्रमुख स्थिति को चुनौती दे सकता है?

Exa AI: Google का AI क्षेत्र, वास्तविक AI खोज इंजन आ गया है!

Qwen2-Audio: प्रश्न श्रृंखला का ऑडियो मल्टीमॉडल मॉडल बिना टेक्स्ट के वॉयस इंटरैक्शन