हाल ही में, इलिनोइस विश्वविद्यालय, अर्बाना-शैम्पेन, सोनी एआई और सोनी समूह की एक शोध टीम ने MMAudio नामक एक नई तकनीक पेश की है, जिसका उद्देश्य मल्टीमॉडल संयुक्त प्रशिक्षण के माध्यम से उच्च गुणवत्ता वाले वीडियो से ऑडियो संश्लेषण को सक्षम करना है।

MMAudio का मुख्य नवाचार यह है कि यह वीडियो और पाठ इनपुट का उपयोग करके समकालिक ऑडियो उत्पन्न कर सकता है, जिससे ऑडियो उत्पन्न करने के अनुप्रयोगों के दृश्यता का विस्तार होता है, वीडियो या पाठ इनपुट का समर्थन करता है, और वीडियो सामग्री के अनुसार ध्वनि प्रभाव उत्पन्न करता है।

MMAudio का डिज़ाइन इसे विभिन्न ऑडियो-वीडियो और ऑडियो पाठ डेटा सेट पर प्रशिक्षण देने की अनुमति देता है। यह मल्टीमॉडल संयुक्त प्रशिक्षण की विधि न केवल संश्लेषित ऑडियो की गुणवत्ता में सुधार करती है, बल्कि सुनिश्चित करती है कि उत्पन्न ऑडियो और वीडियो फ़्रेम के बीच समकालिकता हो। इस समकालिकता मॉड्यूल का परिचय ऑडियो उत्पन्न करने की सटीकता को बहुत बढ़ाता है, यह सुनिश्चित करता है कि ऑडियो और वीडियो सामग्री में सामंजस्य हो।

वर्तमान में, MMAudio का कोडबेस अभी भी निर्माणाधीन है, शोधकर्ताओं ने कहा कि एकल उदाहरण अनुमान कार्यक्षमता अब सामान्य रूप से उपयोग की जा सकती है, जबकि प्रशिक्षण कोड बाद के संस्करणों में जारी किया जाएगा। उपयोगकर्ताओं की सुविधा के लिए, इस तकनीक का परीक्षण उबंटू ऑपरेटिंग सिस्टम पर किया गया है और संबंधित स्थापना गाइड प्रदान की गई है। उपयोगकर्ताओं को Python 3.9 और उससे ऊपर के संस्करण के साथ-साथ PyTorch और ffmpeg के उचित संस्करण की तैयारी करनी होगी, फिर वे सरल आदेशों के माध्यम से MMAudio स्थापित कर सकते हैं।

MMAudio ऑडियो उत्पन्न करते समय कुछ सीमाओं का सामना करता है, जैसे कभी-कभी अस्पष्ट वॉयस या बैकग्राउंड म्यूजिक उत्पन्न होना, साथ ही कुछ अज्ञात अवधारणाओं को संभालने में भी यह आदर्श नहीं है। शोध टीम का मानना है कि उच्च गुणवत्ता वाले प्रशिक्षण डेटा को जोड़ने से इन समस्याओं का समाधान करने में मदद मिल सकती है। अनुसंधान के निरंतर विकास के साथ, MMAudio भविष्य में अपनी प्रदर्शन को और बेहतर बनाने की उम्मीद है।

ट्राई करें: https://huggingface.co/spaces/hkchengrex/MMAudio

कोड: https://github.com/hkchengrex/MMAudio

मुख्य बिंदु:

🌟 MMAudio तकनीक मल्टीमॉडल संयुक्त प्रशिक्षण के माध्यम से वीडियो और ऑडियो का उच्च गुणवत्ता वाला संश्लेषण सक्षम करती है।  

📦 उपयोगकर्ता सरल स्थापना चरणों के माध्यम से उबंटू पर MMAudio का उपयोग करके ऑडियो उत्पन्न कर सकते हैं।  

⚠️ वर्तमान संस्करण में कुछ सीमाएं हैं, लेकिन शोध टीम प्रदर्शन में सुधार के लिए प्रशिक्षण डेटा को बढ़ाने पर काम कर रही है।