एकदम बहुपरकार का! तियुन्हुआ प्रणाली का उपकरण ReSyncer मुंह के आकार, शैली परिवर्तन और चेहरे के परिवर्तन की सुविधाओं को एक साथ पूरा कर सकता है

AIbase基地

द्वारा प्रकाशितAI समाचार · 6 मिनट पढ़ें · Aug 12, 2024

569

त्सिंगहुआ विश्वविद्यालय, बायडू और नानयांग टेक्नोलॉजी यूनिवर्सिटी के S-Lab प्रयोगशाला ने एक नई बहुपरकारी AI ढांचे - ReSyncer को संयुक्त रूप से विकसित किया है, जिसने वीडियो संश्लेषण प्रौद्योगिकी के क्षेत्र में महत्वपूर्ण प्रगति की है। ReSyncer ध्वनि के साथ उच्च स्तर पर समन्वयित वास्तविक मुंह की वीडियो उत्पन्न कर सकता है, जबकि इसमें व्यक्तिगत समायोजन, वीडियो-चालित मुंह समन्वयन, बोलने की शैली का परिवर्तन और चेहरे का आदान-प्रदान जैसी कई उन्नत विशेषताएं भी हैं।

QQ截图20240812103705.jpg

ReSyncer का मुख्य लाभ इसके विविधता पूर्ण कार्यों का समेकन है। यह न केवल ध्वनि के साथ उच्च स्तर पर समन्वयित वास्तविक मुंह की वीडियो उत्पन्न कर सकता है, बल्कि इसमें व्यक्तिगत समायोजन, वीडियो-चालित मुंह समन्वयन, बोलने की शैली का परिवर्तन और चेहरे का आदान-प्रदान जैसी उन्नत विशेषताएं भी हैं। यह बहुपरकारीता ReSyncer को विभिन्न अनुप्रयोग परिदृश्यों में उत्कृष्ट प्रदर्शन करने में सक्षम बनाती है।

सबसे ध्यान आकर्षित करने वाली बात यह है कि ReSyncer ध्वनि-वीडियो समन्वयन में अपनी उत्कृष्टता के लिए जाना जाता है। उन्नत AI एल्गोरिदम के माध्यम से, यह ध्वनि का सटीक अनुसरण करने वाले मुंह के क्रियाओं वाले वीडियो बनाने में सक्षम है, जो दर्शकों को अभूतपूर्व वास्तविकता का अनुभव कराता है। यह तकनीक न केवल वीडियो देखने के अनुभव को बढ़ाती है, बल्कि फिल्म डबिंग, बहुभाषी सामग्री निर्माण जैसे क्षेत्रों में नई संभावनाएं भी प्रदान करती है।

ReSyncer की व्यक्तिगत माइक्रो-समायोजन क्षमता ने रचनाकारों को असीमित कल्पना की जगह प्रदान की है। उपयोगकर्ता विशिष्ट आवश्यकताओं के अनुसार उत्पन्न वीडियो सामग्री को बारीकी से समायोजित कर सकते हैं, जिससे अंतिम उत्पाद विशेष परिदृश्यों और व्यक्तिगत प्राथमिकताओं के साथ अधिक मेल खाता है। यह लचीलापन निस्संदेह सामग्री निर्माण की दक्षता और गुणवत्ता को बढ़ाने में मदद करेगा।

जबकि वीडियो-चालित मुंह समन्वयन की विशेषता ने ReSyncer के अनुप्रयोग क्षेत्र को और बढ़ा दिया है। यह नए वीडियो में पात्रों को मौजूदा वीडियो में बोलने की क्रियाओं की नकल करने की अनुमति देता है, जिससे वीडियो संपादन और सामग्री निर्माण के लिए अधिक नवोन्मेषी संभावनाएं मिलती हैं। सोचिए, आप ऐतिहासिक व्यक्तियों को "आधुनिक" शब्द बोलते हुए देख सकते हैं, या एनिमेटेड पात्रों को वास्तविक लोगों के मुंह के क्रियाओं को सही ढंग से अनुकरण करते हुए देख सकते हैं, ये सभी दृश्य जो पहले केवल विज्ञान-कथा फिल्मों में थे, अब वास्तविकता बन गए हैं।

ReSyncer की बोलने की शैली का परिवर्तन कार्यक्षमता एक और प्रमुख विशेषता है। यह एक व्यक्ति की बोलने की शैली, जिसमें टोन और रिदम शामिल हैं, को दूसरे व्यक्ति पर स्थानांतरित करने में सक्षम है। यह तकनीक भाषा शिक्षण, डबिंग प्रदर्शन, और यहां तक कि व्यक्तिगत वर्चुअल सहायकों के विकास में व्यापक अनुप्रयोग संभावनाएं रखती है।

ReSyncer की शक्तिशाली चेहरे का आदान-प्रदान कार्यक्षमता वीडियो निर्माण के लिए क्रांतिकारी समाधान प्रदान करती है। यह न केवल वीडियो में बोलने वाले के चेहरे को बिना किसी बाधा के बदल सकती है, बल्कि मुंह के आकार और ध्वनि के बीच उत्तम समन्वय भी बनाए रख सकती है। इस तकनीक का उपयोग फिल्म विशेष प्रभाव निर्माण की प्रक्रिया को बहुत सरल बना देगा, जबकि व्यक्तिगत रचनाकारों को अभूतपूर्व रचनात्मक उपकरण प्रदान करेगा।

हालांकि, इतनी शक्तिशाली तकनीक ने कुछ नैतिक और कानूनी चर्चाओं को भी जन्म दिया है। यह सुनिश्चित करना कि इस तकनीक का उपयोग गलत जानकारी बनाने या दूसरों के चित्र अधिकारों का उल्लंघन करने के लिए नहीं किया जाए, भविष्य में समाज के सभी क्षेत्रों के लिए एक साझा चुनौती होगी।

प्रोजेक्ट का पता: https://top.aibase.com/tool/resyncer

ReSyncer AI फ्रेमवर्क वीडियो संयोजन तकनीक ऑडियो और वीडियो समन्वय

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

ग्रेडियो 5.24 का धमाकेदार अपडेट: AI इमेज एडिटिंग फ़ोटोशॉप के बराबर! डेवलपर्स के लिए खुशखबरी!

हाल ही में, ओपन सोर्स AI इंटरफ़ेस फ़्रेमवर्क ग्रेडियो ने अपने 5.24 संस्करण को जारी किया है, जिसके नए डिज़ाइन किए गए इमेजएडिटर घटक के कारण डेवलपर समुदाय में व्यापक चर्चा हुई है। AIbase के अनुसार, ग्रेडियो 5.24 इमेज एडिटिंग फ़ंक्शन को पेशेवर स्तर पर ले जाता है, जिसमें फ़ोटोशॉप जैसे ज़ूम और पैन ऑपरेशन, पूर्ण पारदर्शिता नियंत्रण और कस्टम लेयर फ़ंक्शन शामिल हैं, जिससे AI एप्लिकेशन की इमेज प्रोसेसिंग क्षमता में नई जान आ गई है। इस अपग्रेड को डेवलपर्स द्वारा उच्च-गुणवत्ता वाले चित्र बनाने के लिए एक महत्वपूर्ण कदम माना जा रहा है।

Apr 10, 2025

पोर्टकी एआई गेटवे: विभिन्न बड़े भाषा मॉडल को आसानी से एकीकृत करने वाला ओपन-सोर्स एआई समाधान

पोर्टकी एआई गेटवे एक ओपन-सोर्स समाधान है जो विभिन्न बड़े भाषा मॉडल को एक साथ जोड़ने में आसानी प्रदान करता है। यह डेवलपर्स को विभिन्न मॉडलों की क्षमताओं का उपयोग करने और एकीकृत अनुभव बनाने में मदद करता है।

Mar 6, 2025

ब्लैक बॉक्स को अलविदा! पीeking विश्वविद्यालय ने नया AI फ्रेमवर्क FakeShield विकसित किया, जो छवि फर्जीवाड़े को बेनकाब करता है!

AIGC तकनीक के तेजी से विकास के साथ, छवि संपादन उपकरण越来越 शक्तिशाली हो गए हैं, जिससे छवि परिवर्तन करना और भी आसान हो गया है और इसे पहचानना और भी कठिन हो गया है। हालांकि मौजूदा छवि परिवर्तन पता लगाने और स्थानांकन विधियाँ (IFDL) आम तौर पर बहुत प्रभावी होती हैं, लेकिन उन्हें दो बड़ी चुनौतियों का सामना करना पड़ता है: एक 'ब्लैक बॉक्स' प्रकृति, जहाँ पता लगाने का सिद्धांत स्पष्ट नहीं होता; दूसरा, सामान्यीकरण क्षमता सीमित होती है, जो विभिन्न परिवर्तन विधियों (जैसे Photoshop, DeepFake, AIGC संपादन) का सामना करने में कठिनाई पैदा करती है। इन समस्याओं का समाधान करने के लिए, पीeking विश्वविद्यालय के शोध दल ने व्याख्यायित IFDL कार्य का प्रस्ताव किया है।

Oct 25, 2024

2.1k

माइक्रोसॉफ्ट रिसर्च ने AI फ्रेमवर्क E5-V पेश किया: पाठ के जोड़ों के एकल-मोडल प्रशिक्षण के माध्यम से मल्टी-मोडल अध्ययन को सरल बनाना और लागत कम करना

माइक्रोसॉफ्ट रिसर्च और बीजिंग एरोस्पेस यूनिवर्सिटी की टीम ने E5-V नामक एक कुशल मल्टी-मोडल एम्बेडिंग फ्रेमवर्क पेश किया जो मल्टी-मोडल बड़े भाषा मॉडल (MLMs) के विकास में मौजूद चुनौतियों को हल करने के लिए डिजाइन किया गया है। यह नवोन्मेषी फ्रेमवर्क एकल-मोडल प्रशिक्षण के माध्यम से मल्टी-मोडल अध्ययन की प्रक्रिया को सरल बनाता है, और पिछले मॉडलों द्वारा स्वतंत्र एन्कोडर पर निर्भरता के कारण उत्पन्न होने वाली इनपुट एकीकरण की खराबी को दूर करता है। E5-V पाठ और चित्र की जानकारी को एकीकृत करके प्रशिक्षण लागत को कम करता है और पाठ-चित्र पुनर्प्राप्ति, चित्र पुनर्प्राप्ति जैसे कई जटिल कार्यों में उत्कृष्ट प्रदर्शन प्रदर्शित करता है, विशेषकर शून्य नमूने में।

Jul 23, 2024

2.1k

माइक्रोसॉफ्ट ने पूर्ण स्वचालित AI फ्रेमवर्क Auto Evol-Instruct पेश किया: बड़े भाषा मॉडल का उपयोग करके डेटा सेट के विकास के लिए दिशा-निर्देश, बिना किसी मानव हस्तक्षेप के

माइक्रोसॉफ्ट के शोधकर्ताओं ने नया AI फ्रेमवर्क Auto Evol-Instruct लॉन्च किया है, जो AI डेटा सेट जनरेशन प्रक्रिया के लिए स्वचालित रूप से अनुकूलन और समायोजन कर सकता है, बिना किसी मानव हस्तक्षेप के। पहले के विशेषज्ञ द्वारा बनाए गए नियमों के विकास तरीकों के विपरीत, यह फ्रेमवर्क सीधे बड़े भाषा मॉडल (LLMs) का उपयोग करके निर्देशों का विश्लेषण, डिजाइन और विकास नियमों का अनुकूलन करता है। Auto Evol-Instruct स्वचालित रूप से निर्देश पालन क्षमता, गणितीय तर्क और कोड जनरेशन जैसे कार्यों के प्रदर्शन को बढ़ा सकता है, जो LLMs के प्रदर्शन में महत्वपूर्ण सुधार लाता है। तुलना परीक्षणों के माध्यम से, यह...

Jul 18, 2024

4.7k

AI फ्रेमवर्क GauHuman: उच्च गुणवत्ता वाली 3D मानव तेजी से पुनर्निर्माण और वास्तविक समय रेंडरिंग को लागू करना

नानयांग टेक्नोलॉजिकल यूनिवर्सिटी और सेंसटाइम की S-Lab टीम ने GauHuman पेश किया है, जो उच्च गुणवत्ता वाली 3D मानव तेजी से पुनर्निर्माण और वास्तविक समय रेंडरिंग को पूरा करता है। GauHuman 1-2 मिनट के भीतर मोल्डिंग करता है और प्रति सेकंड 189 फ्रेम्स तक रेंडर करता है। GauHuman एकल आंख के मानव वीडियो को प्रभावी ढंग से संभालता है, उच्च गुणवत्ता वाले 3D डिजिटल मानवों को तेजी से उत्पन्न करता है।

Jan 11, 2024

1.6k

AI समाचार

AI दैनिक

AI समयरेखा

अल हार्डवेयर

नवीनतम मामले

छवि संग्रह

वीडियो संग्रह

ऑडियो संग्रह

सामग्री संग्रह

नवीनतम ट्यूटोरियल

AI उत्पाद रैंकिंग

AI ट्रैफ़िक वृद्धि रैंकिंग

AI ट्रैफ़िक गिरावट रैंकिंग

AI साप्ताहिक रैंकिंग

संयुक्त राज्य अमेरिका

चीन

भारत

ब्राजील

छवि निर्माण

निजी सहायक

चरित्र निर्माण

वीडियो निर्माण

AI प्रोजेक्ट रैंकिंग

AI प्रोजेक्ट विकास रैंकिंग

AI डेवलपर रैंकिंग

AI संगठन रैंकिंग

डीपसीक

TTS

LLM

ChatGPT