हाल ही में, अलीबाबा के अंतर्गत अनुसंधान दल ने "ओमनीटॉकर" नामक एक नई AI तकनीकी परियोजना जारी की है, जिसने अपनी आश्चर्यजनक वीडियो निर्माण क्षमता के साथ उद्योग में तुरंत ध्यान आकर्षित किया है। बताया गया है कि ओमनीटॉकर को केवल एक संदर्भ वीडियो की आवश्यकता होती है, जो वीडियो में व्यक्ति की आवाज की शैली और चेहरे के भावों को सटीक रूप से पकड़ सकता है, और इसके आधार पर होंठों के मिलान और प्राकृतिक भावों वाले गतिशील वीडियो बना सकता है। इस तकनीक के आगमन ने न केवल अलीबाबा की जनरेटिव AI क्षेत्र में गहरी ताकत को दिखाया है, बल्कि वीडियो सामग्री निर्माण के लिए क्रांतिकारी संभावनाएँ भी खोली हैं।
ओमनीटॉकर का मुख्य लाभ इसकी "शून्य-नमूना सीखने" की क्षमता है। पारंपरिक AI वीडियो निर्माण तकनीक को अक्सर बड़ी मात्रा में प्रशिक्षण डेटा, जटिल मॉडल समायोजन या पेशेवर डबिंग समर्थन की आवश्यकता होती है, जबकि ओमनीटॉकर एक एंड-टू-एंड एकीकृत ढांचे के माध्यम से इस मॉडल को पूरी तरह से बदल देता है। उपयोगकर्ता को केवल एक छोटा वीडियो प्रदान करने की आवश्यकता है, जैसे कि प्रसिद्ध कानून के प्रोफेसर लूओ शियांग का व्याख्यान, और सिस्टम जल्दी से उनके अद्वितीय बोलने के तरीके, स्वर और चेहरे के भावों की विशेषताओं का विश्लेषण और "सीख" सकता है। इसके बाद, उपयोगकर्ता कोई भी टेक्स्ट इनपुट कर सकता है, और ओमनीटॉकर स्वचालित रूप से एक वीडियो उत्पन्न कर सकता है, जिससे आभासी चरित्र लूओ शियांग की शैली में "बोल" सकता है, और पूरी प्रक्रिया में किसी मानवीय हस्तक्षेप की आवश्यकता नहीं होती है।
तकनीकी विवरण में, ओमनीटॉकर ने आवाज और वीडियो सामग्री के सिंक्रनाइज़ आउटपुट को महसूस किया है। गहन शिक्षण एल्गोरिदम के माध्यम से, सिस्टम संदर्भ वीडियो से आवाज की लय, ताल और चेहरे के सूक्ष्म भावों में परिवर्तन निकाल सकता है, और इन विशेषताओं को इनपुट टेक्स्ट के साथ मूल रूप से एकीकृत कर सकता है। परिणाम न केवल होंठों और आवाज के मिलान में उच्च स्तर पर हैं, बल्कि आँखों और मुँह के कोनों की सूक्ष्म हरकतें भी प्राकृतिक और सहज हैं, जैसे कि असली व्यक्ति स्क्रीन पर बात कर रहे हों। इस उच्च-निष्ठा प्रदर्शन ने पिछले AI वीडियो निर्माण में आम ध्वनि और छवि असंगति या कठोर भावों की समस्याओं को हल किया है, उपयोगकर्ताओं को लगभग वास्तविक शूटिंग के दृश्य अनुभव प्रदान करता है।
उद्योग के विशेषज्ञों का विश्लेषण है कि ओमनीटॉकर की सफलता संभवतः अलीबाबा के बहु-मोडल AI तकनीक में दीर्घकालिक संचय के कारण है। सिस्टम द्वारा अपनाया गया एकीकृत ढाँचा डिज़ाइन इसे ऑडियो और वीडियो निर्माण कार्यों को एक साथ संसाधित करने की अनुमति देता है, जिससे पारंपरिक विधियों में चरण-दर-चरण प्रसंस्करण से होने वाली त्रुटि संचय से बचा जा सकता है। इसके अलावा, इसका 25 फ्रेम प्रति सेकंड का अनुमान गति और केवल 0.8 अरब पैरामीटर का हल्का मॉडल का समर्थन इसका मतलब है कि यह उच्च दक्षता बनाए रखते हुए गणना लागत को बहुत कम करता है। यह विशेषता इसे मोबाइल उपकरणों या कम संसाधन वाले उपकरणों में व्यापक रूप से लागू करने की अनुमति देती है, जिससे अधिक उपयोगकर्ताओं को सुविधा मिलती है।
ओमनीटॉकर के अनुप्रयोग के दृष्टिकोण उत्साहजनक हैं। शिक्षा के क्षेत्र में, यह शिक्षकों की शैली के अनुसार व्यक्तिगत शिक्षण वीडियो उत्पन्न कर सकता है; मनोरंजन उद्योग में, उपयोगकर्ता मूर्तियों के बोलने के तरीके का उपयोग करके मज़ेदार लघु फ़िल्में बना सकते हैं; व्यावसायिक परिदृश्यों में, कंपनियाँ इस तकनीक का उपयोग करके जल्दी से ब्रांड प्रवक्ता वीडियो बना सकती हैं, बिना किसी वास्तविक अभिनेता या डबिंग कर्मियों की आवश्यकता के। कुछ लोगों का मानना है कि यह तकनीक सामग्री निर्माण के पारिस्थितिकी तंत्र को भी बदल सकती है, जिससे आम लोग भी आसानी से पेशेवर स्तर के वीडियो कार्य बना सकते हैं।
हालांकि, ओमनीटॉकर की शक्तिशाली कार्यक्षमता के साथ संभावित चुनौतियाँ भी हैं। इसकी उच्च-निष्ठा सिमुलेशन निर्माण क्षमता डिजिटल पहचान और गोपनीयता संरक्षण पर चर्चा को जन्म दे सकती है। उदाहरण के लिए, यदि इसका उपयोग अनधिकृत शैली प्रतिकृति के लिए किया जाता है, तो यह कॉपीराइट विवाद या नैतिक विवाद पैदा कर सकता है। अलीबाबा ने अभी तक विशिष्ट व्यावसायीकरण योजना या उपयोग विनियमों की घोषणा नहीं की है, लेकिन बाहरी दुनिया को उम्मीद है कि यह तकनीकी प्रचार के साथ एक स्पष्ट अनुपालन ढाँचा स्थापित कर सकेगी।
चीन के तकनीकी उद्यमों द्वारा AI क्षेत्र में एक और उत्कृष्ट कृति के रूप में, ओमनीटॉकर के लॉन्च ने न केवल अलीबाबा की वीडियो निर्माण तकनीक में अग्रणी स्थिति को प्रदर्शित किया है, बल्कि वैश्विक AI प्रतियोगिता में एक उज्जवल रंग भी जोड़ा है। एकल फ़ोटो से गतिशील वीडियो तक, और अब शैलीबद्ध आवाज और भावों के सिंक्रनाइज़ेशन तक, जनरेटिव AI हमारे निर्माण तरीके को आश्चर्यजनक गति से बदल रहा है। यह अनुमान लगाया जा सकता है कि ओमनीटॉकर के आगे के सुधार के साथ, यह सामग्री रचनाकारों के हाथों में एक "जादू उपकरण" बन सकता है, जिससे प्रत्येक प्रेरणा को सबसे जीवंत तरीके से दुनिया के सामने प्रस्तुत किया जा सकता है।
परियोजना पता: https://humanaigc.github.io/omnitalker/