ओम्निह्यूमन: एक तस्वीर से वास्तविक पूर्ण शरीर गतिशील वीडियो उत्पन्न करने के लिए बाइटडांस द्वारा पेश किया गया

AIbase基地

द्वारा प्रकाशितAI समाचार · 5 मिनट पढ़ें · Feb 5, 2025

1.8k

बाइटडांस की शोध टीम ने हाल ही में OmniHuman नामक एक आर्टिफिशियल इंटेलिजेंस सिस्टम विकसित किया है, जो एकल फोटो को यथार्थवादी वीडियो में परिवर्तित कर सकता है, जिसमें व्यक्ति की बात करना, गाना और स्वाभाविक गतिविधियाँ प्रदर्शित होती हैं। यह क्रांतिकारी तकनीक डिजिटल मनोरंजन और संचार के क्षेत्र में पूरी तरह से बदलाव लाने की संभावना रखती है।

OmniHuman पूर्ण शरीर वीडियो उत्पन्न कर सकता है, जो व्यक्तियों के बात करते समय के इशारों और गतियों को प्रदर्शित करता है, यह पहले के केवल चेहरे या ऊपरी शरीर को एनिमेट करने वाले एआई मॉडलों से परे है। इस तकनीक का मुख्य आधार यह है कि यह टेक्स्ट, ऑडियो और मानव गतिविधियों जैसे विभिन्न इनपुट को जोड़ती है, एक अभिनव विधि जिसे "पूर्ण-शर्त" प्रशिक्षण कहा जाता है, जिससे एआई बड़े और समृद्ध डेटा सेट से सीखने में सक्षम होता है।

शोध टीम ने बताया कि OmniHuman ने 18700 घंटे से अधिक मानव वीडियो डेटा के प्रशिक्षण के बाद महत्वपूर्ण प्रगति दिखाई है। विभिन्न शर्तों के संकेत (जैसे टेक्स्ट, ऑडियो और पोस्चर) को शामिल करके, इस तकनीक ने न केवल वीडियो निर्माण की गुणवत्ता को बढ़ाया है, बल्कि डेटा के अपशिष्ट को भी प्रभावी ढंग से कम किया है।

शोधकर्ताओं ने arXiv पर प्रकाशित एक पेपर में उल्लेख किया कि हाल के वर्षों में मानव एनिमेशन के एंड-टू-एंड तकनीक में महत्वपूर्ण प्रगति हुई है, लेकिन मौजूदा विधियों में अनुप्रयोग के पैमाने को बढ़ाने में सीमाएँ हैं।

OmniHuman के अनुप्रयोग की संभावनाएँ व्यापक हैं, जैसे कि भाषण वीडियो बनाना, वाद्य यंत्रों का प्रदर्शन करना आदि। परीक्षण के बाद, यह तकनीक कई गुणवत्ता मानकों पर मौजूदा सिस्टम से बेहतर साबित हुई है, जो इसकी उत्कृष्टता को दर्शाता है। यह विकास एआई वीडियो निर्माण तकनीक के तेजी से प्रतिस्पर्धात्मक वातावरण में हुआ है, जिसमें गूगल, मेटा और माइक्रोसॉफ्ट जैसी कंपनियाँ भी समान तकनीकों का पीछा कर रही हैं।

हालांकि, OmniHuman ने मनोरंजन उत्पादन, शैक्षिक सामग्री निर्माण और डिजिटल संचार में परिवर्तन की संभावना प्रस्तुत की है, लेकिन इसने संश्लेषित मीडिया के संभावित दुरुपयोग के बारे में चिंताएँ भी उठाई हैं। शोध टीम अपने शोध परिणामों को आगामी कंप्यूटर विज़न सम्मेलन में प्रदर्शित करेगी, हालांकि विशिष्ट समय और सम्मेलन की जानकारी अभी तक घोषित नहीं की गई है।

पेपर: https://arxiv.org/pdf/2502.01061

मुख्य बिंदु:
🌟 OmniHuman एक नई प्रकार की एआई है, जो एकल फोटो को यथार्थवादी पूर्ण शरीर वीडियो में परिवर्तित कर सकती है।
📊 यह तकनीक 18700 घंटे के मानव वीडियो डेटा के प्रशिक्षण के बाद, उत्पन्न प्रभाव को बढ़ाने के लिए विभिन्न इनपुट संकेतों को जोड़ती है।
⚖️ हालांकि इसके व्यापक अनुप्रयोग की संभावनाएँ हैं, लेकिन यह संश्लेषित मीडिया के दुरुपयोग की चिंताओं को भी जन्म देती है।

रोबोट मालिकों को अलविदा! कैलिफ़ोर्निया ने मानव नियंत्रण सुनिश्चित करने के लिए विधेयक पेश किया

कैलिफ़ोर्निया के सीनेटर जेरी मैकनर्नी ने गुरुवार को "नो रोबो बॉस अधिनियम" पेश करने की घोषणा की। यह विधेयक कार्यस्थल में कृत्रिम बुद्धिमत्ता (AI) के निर्णयों पर मानव पर्यवेक्षण सुनिश्चित करने का प्रयास करता है, जो इस तरह का पहला प्रस्ताव है। इस विधेयक के अनुसार, प्रस्तावित सीनेट बिल 7, कैलिफ़ोर्निया के नियोक्ताओं को भर्ती, पदोन्नति, दंड या बर्खास्तगी में केवल कृत्रिम बुद्धिमत्ता या स्वचालित निर्णय प्रणाली (एआई) पर निर्भर रहने से रोकता है।

अमेरिकी न्याय विभाग ने गूगल से क्रोम ब्राउज़र बेचने और AI निवेश पर प्रतिबंधों में ढील देने का आग्रह किया

अमेरिकी न्याय विभाग की ताज़ा अदालती दस्तावेज़ों के अनुसार, गूगल से अपने वेब ब्राउज़र क्रोम को बेचने की माँग अभी भी जारी है। यह प्रस्ताव सबसे पहले पिछले साल तत्कालीन राष्ट्रपति बाइडेन द्वारा दिया गया था, और न्याय विभाग ने ट्रम्प के दूसरे कार्यकाल में भी इस योजना को जारी रखा। हालाँकि, न्याय विभाग अब गूगल से अपनी सभी कृत्रिम बुद्धिमत्ता निवेशों को अलग करने की माँग नहीं कर रहा है, जिसमें एंथ्रोपिक में गूगल के अरबों डॉलर के निवेश भी शामिल हैं। न्याय विभाग ने अदालती दस्तावेज़ों में कहा है कि गूगल के अवैध कृत्यों से आर्थिक रूप से विशाल प्रभाव पड़ा है जिससे बाजार पर गंभीर प्रभाव पड़ा है, यह सुनिश्चित करना होगा कि गूगल चाहे कुछ भी हो

अली बाबा के टोंगयी कियानवेन रिज़निंग बड़े मॉडल QwQ-32B ने वैश्विक ओपन सोर्स समुदाय रैंकिंग में प्रथम स्थान प्राप्त किया

अलीबाबा के टोंगयी कियानवेन द्वारा विकसित QwQ-32B नामक एक बड़े भाषा मॉडल ने वैश्विक ओपन सोर्स समुदाय में रैंकिंग में पहला स्थान हासिल किया है। यह मॉडल अपनी उन्नत तर्क क्षमताओं के लिए जाना जाता है।

कृत्रिम बुद्धिमत्ता तकनीक का उपयोग करके वैश्विक स्तर पर सबसे बड़े कॉल सेंटर ऑपरेटर द्वारा भारतीय कर्मचारियों के उच्चारण को वास्तविक समय में संशोधित किया जाता है

विश्व का सबसे बड़ा कॉल सेंटर ऑपरेटर वास्तविक समय में भारतीय कर्मचारियों के उच्चारण को बेहतर बनाने के लिए कृत्रिम बुद्धिमत्ता (एआई) तकनीक का उपयोग कर रहा है। यह तकनीक कर्मचारियों के उच्चारण में सुधार करके बेहतर ग्राहक अनुभव प्रदान करने में मदद करती है।

AI समाचार

ओम्निह्यूमन: एक तस्वीर से वास्तविक पूर्ण शरीर गतिशील वीडियो उत्पन्न करने के लिए बाइटडांस द्वारा पेश किया गया

AIbase基地

संबंधित AI समाचार अनुशंसाएँ

रोबोट मालिकों को अलविदा! कैलिफ़ोर्निया ने मानव नियंत्रण सुनिश्चित करने के लिए विधेयक पेश किया

अमेरिकी न्याय विभाग ने गूगल से क्रोम ब्राउज़र बेचने और AI निवेश पर प्रतिबंधों में ढील देने का आग्रह किया