क्या आपको याद है कि महीने की शुरुआत में जब नए प्रोजेक्ट Loopy का विमोचन हुआ था, तो सभी लोग कितने हैरान थे? यह प्रोजेक्ट जो डिजिटल इंसान की आवाज़ को चित्र और भावनाओं के साथ पूरी तरह से मेल खाता है, अब आधिकारिक तौर पर जिमेंग पर लाइव हो गया है।

111.jpg

AIbase ने इसका अनुभव किया, और परिणाम बहुत अच्छा था, इसे वर्तमान में चीनी भाषा के लिए सबसे अच्छे लिप-सिंक सेवाओं में से एक कहा जा सकता है।

पहले, लिप-सिंक वीडियो में एक सामान्य समस्या होती थी, जो यह थी कि मुंह के हिलने से ऐसा लगता था कि आवाज़ उसी से नहीं निकल रही है, जिससे दर्शकों को एक अलगाव का अनुभव होता था।

बाइटडांस और झेजियांग विश्वविद्यालय की अनुसंधान टीम द्वारा विकसित ऑडियो-ड्रिवन वीडियो डिफ्यूजन मॉडल LOOPY ने इस समस्या का पूरी तरह से समाधान किया है।

image.png

पिछले लिप-सिंक तकनीकों से भिन्न, Loopy लिप-सिंक वीडियो में पात्रों को बात करते या गाते समय स्वचालित रूप से उस संदर्भ में उपयुक्त स्वर, भावना और अभिव्यक्ति भी जोड़ता है। यह वर्चुअल इमेज के हर छोटे-छोटे आंदोलनों को सटीक रूप से "निर्देशित" कर सकता है, जैसे कि आह भरना, भावनात्मक रूप से भौंहें और आंखों की हरकतें, और स्वाभाविक सिर की हरकतें।

वर्तमान में, यह सुविधा बाइटडांस के जिमेंग वीडियो जनरेशन मॉड्यूल में शामिल की गई है:

AIbase ने एक लड़की की फोटो अपलोड की और परीक्षण किया,

जिमेंग में लिप-सिंक के लिए वर्तमान में दो तरीके उपलब्ध हैं:

1. टेक्स्ट रीडिंग

文本朗读.jpg

जिमेंग का संचालन काफी सरल है, आपको केवल उस पात्र की तस्वीर या वीडियो अपलोड करनी होती है जिसे आप लिप-सिंक करना चाहते हैं, फिर टेक्स्ट दर्ज करें और एक वॉयसओवर चुनें। यहाँ AIbase ने एक ठंडी और आकर्षक आवाज़ चुनी है, परिणाम इस प्रकार है:

आप देख सकते हैं, पात्र बोलते समय कुछ सूक्ष्म भावनाएं भी दिखा रहा है, और बोलने के दौरान, चेहरे की रेखाएँ और अन्य विवरण भी बहुत वास्तविक हैं।

2. स्थानीय वॉयसओवर अपलोड करें

और, आप केवल उसे बात करने के लिए नहीं कह सकते, बल्कि आप एक गाने का ऑडियो भी अपलोड कर सकते हैं और उसे गाने के लिए कह सकते हैं:

对口型,图片+本地配音.jpg

यहाँ AIbase ने हाल ही में लोकप्रिय एक TikTok क्लिप का चयन किया है, आइए परिणाम देखें:

परिणाम वास्तव में अच्छा है, न केवल लिप-सिंक सही है, बल्कि आवाज़ भी किसी प्रकार के अलगाव का अनुभव नहीं कराती, ऐसा लगता है जैसे लड़की की असली आवाज़ यही है।

हालांकि एक छोटी समस्या है, AIbase द्वारा चुनी गई इस लड़की की तस्वीर में, उसकी आँखें दर्शकों की ओर नहीं देख रही हैं, शायद इससे पहचान की भावना उतनी मजबूत नहीं है, मैं एक और फ्रंटल तस्वीर का प्रयास करता हूँ:

क्या यह बेहतर नहीं है, और पात्र गाते समय भी आंखें बंद करने, सिर हिलाने जैसे बहुत वास्तविक क्रियाएँ कर रहा है।

AIbase ने एक पुरुष संस्करण का भी परीक्षण किया, परिणाम इस प्रकार है:

क्या परिणाम अद्भुत नहीं है? AIbase को यह देखकर बहुत खुशी हुई कि लिप-सिंक करते समय, यह Adam's apple, भौंहें और अन्य सूक्ष्म बदलावों पर भी ध्यान देता है। जिससे समग्र वीडियो और अधिक वास्तविक बनता है।

जो लोग रुचि रखते हैं वे स्वयं अनुभव कर सकते हैं~

जिमेंग उत्पाद का लिंक: https://top.aibase.com/tool/jimeng