क्या आपको याद है कि महीने की शुरुआत में जब नए प्रोजेक्ट Loopy का विमोचन हुआ था, तो सभी लोग कितने हैरान थे? यह प्रोजेक्ट जो डिजिटल इंसान की आवाज़ को चित्र और भावनाओं के साथ पूरी तरह से मेल खाता है, अब आधिकारिक तौर पर जिमेंग पर लाइव हो गया है।
AIbase ने इसका अनुभव किया, और परिणाम बहुत अच्छा था, इसे वर्तमान में चीनी भाषा के लिए सबसे अच्छे लिप-सिंक सेवाओं में से एक कहा जा सकता है।
पहले, लिप-सिंक वीडियो में एक सामान्य समस्या होती थी, जो यह थी कि मुंह के हिलने से ऐसा लगता था कि आवाज़ उसी से नहीं निकल रही है, जिससे दर्शकों को एक अलगाव का अनुभव होता था।
बाइटडांस और झेजियांग विश्वविद्यालय की अनुसंधान टीम द्वारा विकसित ऑडियो-ड्रिवन वीडियो डिफ्यूजन मॉडल LOOPY ने इस समस्या का पूरी तरह से समाधान किया है।
पिछले लिप-सिंक तकनीकों से भिन्न, Loopy लिप-सिंक वीडियो में पात्रों को बात करते या गाते समय स्वचालित रूप से उस संदर्भ में उपयुक्त स्वर, भावना और अभिव्यक्ति भी जोड़ता है। यह वर्चुअल इमेज के हर छोटे-छोटे आंदोलनों को सटीक रूप से "निर्देशित" कर सकता है, जैसे कि आह भरना, भावनात्मक रूप से भौंहें और आंखों की हरकतें, और स्वाभाविक सिर की हरकतें।
वर्तमान में, यह सुविधा बाइटडांस के जिमेंग वीडियो जनरेशन मॉड्यूल में शामिल की गई है:
AIbase ने एक लड़की की फोटो अपलोड की और परीक्षण किया,
जिमेंग में लिप-सिंक के लिए वर्तमान में दो तरीके उपलब्ध हैं:
1. टेक्स्ट रीडिंग
जिमेंग का संचालन काफी सरल है, आपको केवल उस पात्र की तस्वीर या वीडियो अपलोड करनी होती है जिसे आप लिप-सिंक करना चाहते हैं, फिर टेक्स्ट दर्ज करें और एक वॉयसओवर चुनें। यहाँ AIbase ने एक ठंडी और आकर्षक आवाज़ चुनी है, परिणाम इस प्रकार है:
आप देख सकते हैं, पात्र बोलते समय कुछ सूक्ष्म भावनाएं भी दिखा रहा है, और बोलने के दौरान, चेहरे की रेखाएँ और अन्य विवरण भी बहुत वास्तविक हैं।
2. स्थानीय वॉयसओवर अपलोड करें
और, आप केवल उसे बात करने के लिए नहीं कह सकते, बल्कि आप एक गाने का ऑडियो भी अपलोड कर सकते हैं और उसे गाने के लिए कह सकते हैं:
यहाँ AIbase ने हाल ही में लोकप्रिय एक TikTok क्लिप का चयन किया है, आइए परिणाम देखें:
परिणाम वास्तव में अच्छा है, न केवल लिप-सिंक सही है, बल्कि आवाज़ भी किसी प्रकार के अलगाव का अनुभव नहीं कराती, ऐसा लगता है जैसे लड़की की असली आवाज़ यही है।
हालांकि एक छोटी समस्या है, AIbase द्वारा चुनी गई इस लड़की की तस्वीर में, उसकी आँखें दर्शकों की ओर नहीं देख रही हैं, शायद इससे पहचान की भावना उतनी मजबूत नहीं है, मैं एक और फ्रंटल तस्वीर का प्रयास करता हूँ:
क्या यह बेहतर नहीं है, और पात्र गाते समय भी आंखें बंद करने, सिर हिलाने जैसे बहुत वास्तविक क्रियाएँ कर रहा है।
AIbase ने एक पुरुष संस्करण का भी परीक्षण किया, परिणाम इस प्रकार है:
क्या परिणाम अद्भुत नहीं है? AIbase को यह देखकर बहुत खुशी हुई कि लिप-सिंक करते समय, यह Adam's apple, भौंहें और अन्य सूक्ष्म बदलावों पर भी ध्यान देता है। जिससे समग्र वीडियो और अधिक वास्तविक बनता है।
जो लोग रुचि रखते हैं वे स्वयं अनुभव कर सकते हैं~
जिमेंग उत्पाद का लिंक: https://top.aibase.com/tool/jimeng