बाइटडांस की शोध टीम ने हाल ही में OmniHuman नामक एक आर्टिफिशियल इंटेलिजेंस सिस्टम विकसित किया है, जो एकल फोटो को यथार्थवादी वीडियो में परिवर्तित कर सकता है, जिसमें व्यक्ति की बात करना, गाना और स्वाभाविक गतिविधियाँ प्रदर्शित होती हैं। यह क्रांतिकारी तकनीक डिजिटल मनोरंजन और संचार के क्षेत्र में पूरी तरह से बदलाव लाने की संभावना रखती है।

image.png

OmniHuman पूर्ण शरीर वीडियो उत्पन्न कर सकता है, जो व्यक्तियों के बात करते समय के इशारों और गतियों को प्रदर्शित करता है, यह पहले के केवल चेहरे या ऊपरी शरीर को एनिमेट करने वाले एआई मॉडलों से परे है। इस तकनीक का मुख्य आधार यह है कि यह टेक्स्ट, ऑडियो और मानव गतिविधियों जैसे विभिन्न इनपुट को जोड़ती है, एक अभिनव विधि जिसे "पूर्ण-शर्त" प्रशिक्षण कहा जाता है, जिससे एआई बड़े और समृद्ध डेटा सेट से सीखने में सक्षम होता है।

शोध टीम ने बताया कि OmniHuman ने 18700 घंटे से अधिक मानव वीडियो डेटा के प्रशिक्षण के बाद महत्वपूर्ण प्रगति दिखाई है। विभिन्न शर्तों के संकेत (जैसे टेक्स्ट, ऑडियो और पोस्चर) को शामिल करके, इस तकनीक ने न केवल वीडियो निर्माण की गुणवत्ता को बढ़ाया है, बल्कि डेटा के अपशिष्ट को भी प्रभावी ढंग से कम किया है।

शोधकर्ताओं ने arXiv पर प्रकाशित एक पेपर में उल्लेख किया कि हाल के वर्षों में मानव एनिमेशन के एंड-टू-एंड तकनीक में महत्वपूर्ण प्रगति हुई है, लेकिन मौजूदा विधियों में अनुप्रयोग के पैमाने को बढ़ाने में सीमाएँ हैं।

OmniHuman के अनुप्रयोग की संभावनाएँ व्यापक हैं, जैसे कि भाषण वीडियो बनाना, वाद्य यंत्रों का प्रदर्शन करना आदि। परीक्षण के बाद, यह तकनीक कई गुणवत्ता मानकों पर मौजूदा सिस्टम से बेहतर साबित हुई है, जो इसकी उत्कृष्टता को दर्शाता है। यह विकास एआई वीडियो निर्माण तकनीक के तेजी से प्रतिस्पर्धात्मक वातावरण में हुआ है, जिसमें गूगल, मेटा और माइक्रोसॉफ्ट जैसी कंपनियाँ भी समान तकनीकों का पीछा कर रही हैं।

हालांकि, OmniHuman ने मनोरंजन उत्पादन, शैक्षिक सामग्री निर्माण और डिजिटल संचार में परिवर्तन की संभावना प्रस्तुत की है, लेकिन इसने संश्लेषित मीडिया के संभावित दुरुपयोग के बारे में चिंताएँ भी उठाई हैं। शोध टीम अपने शोध परिणामों को आगामी कंप्यूटर विज़न सम्मेलन में प्रदर्शित करेगी, हालांकि विशिष्ट समय और सम्मेलन की जानकारी अभी तक घोषित नहीं की गई है।

पेपर: https://arxiv.org/pdf/2502.01061

मुख्य बिंदु:

🌟 OmniHuman एक नई प्रकार की एआई है, जो एकल फोटो को यथार्थवादी पूर्ण शरीर वीडियो में परिवर्तित कर सकती है।  

📊 यह तकनीक 18700 घंटे के मानव वीडियो डेटा के प्रशिक्षण के बाद, उत्पन्न प्रभाव को बढ़ाने के लिए विभिन्न इनपुट संकेतों को जोड़ती है।  

⚖️ हालांकि इसके व्यापक अनुप्रयोग की संभावनाएँ हैं, लेकिन यह संश्लेषित मीडिया के दुरुपयोग की चिंताओं को भी जन्म देती है।