PixelPlayer

श्रव्य-दृश्य स्रोत पृथक्करण प्रणाली

सामान्य उत्पादसंगीतऑडियो पृथक्करणश्रव्य-दृश्य विश्लेषण
PixelPlayer एक ऐसी प्रणाली है जो बड़ी मात्रा में बिना लेबल वाले वीडियो देखकर ध्वनि उत्पन्न करने वाले छवि क्षेत्रों का पता लगाना और इनपुट ध्वनि को प्रत्येक पिक्सेल की ध्वनि को दर्शाने वाले घटकों के समूह में अलग करना सीख सकती है। हमारा तरीका दृश्य और श्रवण दोनों मोड की प्राकृतिक सिंक्रोनाइजेशन विशेषताओं का उपयोग करता है, बिना किसी अतिरिक्त मानवीय लेबलिंग की आवश्यकता के ध्वनि और छवि को संयुक्त रूप से विश्लेषण करने वाले मॉडल को सीखने के लिए। यह प्रणाली विभिन्न वाद्ययंत्र संयोजनों के एकल और युगल प्रदर्शन वाले बड़ी मात्रा में प्रशिक्षण वीडियो का उपयोग करके प्रशिक्षित की जाती है। प्रत्येक वीडियो के लिए यह निर्देश नहीं दिया जाता है कि कौन से वाद्ययंत्र दिखाई दिए, वे कहाँ थे और उनकी ध्वनि कैसी थी। परीक्षण चरण में, सिस्टम का इनपुट एक वीडियो है जिसमें विभिन्न वाद्ययंत्रों का प्रदर्शन दिखाया गया है और मोनो ऑडियो इनपुट है। सिस्टम ऑडियो-विज़ुअल स्रोत पृथक्करण और स्थिति निर्धारण करता है, इनपुट ध्वनि सिग्नल को N ऑडियो चैनलों में विभाजित करता है, प्रत्येक चैनल एक अलग वाद्ययंत्र श्रेणी से मेल खाता है। इसके अलावा, सिस्टम ध्वनि का पता लगा सकता है और इनपुट वीडियो के प्रत्येक पिक्सेल को अलग-अलग ऑडियो तरंगरूप असाइन कर सकता है।
वेबसाइट खोलें

PixelPlayer विकल्प