हाल ही में, कियांग हुआ विश्वविद्यालय की शोध टीम ने अपने नवीनतम शोध परिणाम - वीडियो-टी1 को सार्वजनिक किया है। इस तकनीक का मूल परीक्षण-समय स्केलिंग (टेस्ट-टाइम स्केलिंग, TTS) है, जिसका उद्देश्य वीडियो निर्माण प्रक्रिया के अनुमान चरण में अधिक कम्प्यूटेशनल संसाधन लगाकर उत्पन्न वीडियो की गुणवत्ता और पाठ संकेतों के साथ संगति में उल्लेखनीय सुधार करना है, बिना महंगे मॉडल प्रशिक्षण को दोहराए। यह अभिनव तरीका वीडियो निर्माण क्षेत्र के लिए नई संभावनाएँ लाता है।
"परीक्षण-समय स्केलिंग" क्या है?
बड़े भाषा मॉडल (LLMs) क्षेत्र में, शोधकर्ताओं ने पाया है कि परीक्षण चरण में गणना की मात्रा बढ़ाने से मॉडल के प्रदर्शन में प्रभावी ढंग से सुधार हो सकता है। वीडियो-टी1 ने इस विचार को अपनाया है और इसे वीडियो निर्माण क्षेत्र में लागू किया है। सरल शब्दों में कहें तो, पारंपरिक वीडियो निर्माण मॉडल पाठ संकेत प्राप्त करने के बाद सीधे एक वीडियो उत्पन्न करते हैं।
जबकि TTS का उपयोग करने वाला वीडियो-टी1, वीडियो उत्पन्न करने की प्रक्रिया में कई बार "खोज" और "चयन" करता है, कई संभावित वीडियो उत्पन्न करके और "परीक्षण सत्यापक" का उपयोग करके मूल्यांकन करके, अंततः उच्चतम गुणवत्ता वाला वीडियो चुनता है। यह एक कुशल कलाकार की तरह है, जो अंतिम कृति को पूरा करने से पहले कई अलग-अलग तरीकों और विवरणों का प्रयास करता है।
वीडियो-टी1 की मुख्य तकनीक
वीडियो-टी1 सीधे प्रशिक्षण लागत को नहीं बढ़ाता है, बल्कि मौजूदा मॉडल की क्षमताओं का अधिक प्रभावी ढंग से उपयोग करने पर ध्यान केंद्रित करता है। इसकी मुख्य विधि को मॉडल के "शोर स्थान" में बेहतर वीडियो निर्माण पथ खोजने के रूप में समझा जा सकता है। इस लक्ष्य को प्राप्त करने के लिए, शोध टीम ने दो मुख्य खोज रणनीतियाँ प्रस्तावित की हैं:
रैंडम लीनियर सर्च (रैंडम लीनियर सर्च): यह विधि कई गॉसियन शोरों का यादृच्छिक नमूनाकरण करके, वीडियो निर्माण मॉडल को इन शोरों को क्रमिक रूप से हटाने, कई संभावित वीडियो क्लिप उत्पन्न करने, और फिर इन संभावित वीडियो को स्कोर करने के लिए परीक्षण सत्यापक का उपयोग करने, और अंत में उच्चतम स्कोर वाले वीडियो का चयन करने की अनुमति देती है।
फ्रेम ट्री सर्च (ट्री-ऑफ-फ्रेम्स, ToF): यह देखते हुए कि सभी फ्रेमों पर एक साथ पूर्ण-चरण शोर हटाने से भारी कम्प्यूटेशनल लागत आएगी, ToF एक अधिक कुशल रणनीति का उपयोग करता है। यह वीडियो निर्माण प्रक्रिया को तीन चरणों में विभाजित करता है: सबसे पहले छवि-स्तरीय संरेखण, जो बाद के फ्रेमों के निर्माण को प्रभावित करेगा; दूसरा, परीक्षण सत्यापक में गतिशील संकेतों का उपयोग करना, गति की स्थिरता और भौतिक तर्कसंगतता पर ध्यान केंद्रित करना, और प्रतिक्रिया के अनुसार खोज प्रक्रिया को निर्देशित करना; अंत में, वीडियो की समग्र गुणवत्ता का मूल्यांकन करना और पाठ संकेत के साथ उच्चतम संरेखण वाले वीडियो का चयन करना। ToF का यह स्व-पुनरावर्ती तरीका वीडियो निर्माण की संभावनाओं का अधिक बुद्धिमानी से पता लगा सकता है।
TTS का उल्लेखनीय प्रभाव
प्रयोग के परिणामों से पता चलता है कि परीक्षण समय गणना की मात्रा बढ़ने के साथ (अर्थात, अधिक संभावित वीडियो उत्पन्न करना), मॉडल का प्रदर्शन लगातार बेहतर होता जाता है। इसका मतलब है कि अधिक अनुमान समय लगाकर, एक ही वीडियो निर्माण मॉडल भी उच्च गुणवत्ता वाले, पाठ संकेतों के साथ अधिक सुसंगत वीडियो उत्पन्न कर सकता है। शोधकर्ताओं ने कई वीडियो निर्माण मॉडल पर प्रयोग किए हैं, और परिणामों से पता चलता है कि TTS प्रदर्शन में स्थिर सुधार ला सकता है। साथ ही, विभिन्न परीक्षण सत्यापक विभिन्न मूल्यांकन पहलुओं पर ध्यान केंद्रित करते हैं, इसलिए प्रदर्शन में सुधार की दर और सीमा में अंतर है।
वीडियो-टी1 की TTS विधि सामान्य संकेत श्रेणियों (जैसे दृश्य, वस्तुएँ) और आसानी से मूल्यांकन योग्य आयामों (जैसे छवि गुणवत्ता) में उल्लेखनीय सुधार प्राप्त करती है। आधिकारिक वीडियो प्रदर्शन को देखकर यह पता चलता है कि TTS प्रसंस्करण के बाद वीडियो की स्पष्टता, विवरण और पाठ विवरण के साथ संगति में स्पष्ट सुधार हुआ है। उदाहरण के लिए, "सूरज का चश्मा पहने हुए एक स्विमिंग पूल के किनारे लाइफगार्ड के रूप में काम करने वाली बिल्ली" का वर्णन करने वाले वीडियो में, TTS प्रसंस्करण के बाद, बिल्ली की छवि अधिक स्पष्ट है, और लाइफगार्ड की हरकतें अधिक स्वाभाविक हैं।
चुनौतियाँ और दृष्टिकोण
हालांकि TTS ने कई पहलुओं में उल्लेखनीय प्रगति की है, लेकिन शोधकर्ताओं ने यह भी बताया है कि कुछ मुश्किल से मूल्यांकन योग्य संभावित विशेषताओं के लिए, जैसे कि गति की सहजता और समय के साथ संगति (चित्रों के झिलमिलाहट से बचने के लिए), TTS का सुधार प्रभाव अपेक्षाकृत सीमित है। इसका मुख्य कारण यह है कि इन विशेषताओं के लिए फ्रेम के पार गति पथ के सटीक नियंत्रण की आवश्यकता होती है, और वर्तमान वीडियो निर्माण मॉडल अभी भी इस पहलू में चुनौतियों का सामना कर रहे हैं।
कियांग हुआ विश्वविद्यालय द्वारा सार्वजनिक किया गया वीडियो-टी1 अभिनव परीक्षण-समय स्केलिंग रणनीति के माध्यम से वीडियो निर्माण की गुणवत्ता में सुधार के लिए एक नया प्रभावी तरीका प्रदान करता है। इसे महंगे पुन: प्रशिक्षण की आवश्यकता नहीं है, बल्कि अनुमान समय के दौरान कम्प्यूटेशनल संसाधनों का अधिक बुद्धिमानी से उपयोग करके मौजूदा मॉडल को अधिक शक्तिशाली बनाता है। भविष्य के शोध में गहराई से जाने के साथ, हमारे पास यह उम्मीद करने का कारण है कि TTS तकनीक वीडियो निर्माण क्षेत्र में अधिक महत्वपूर्ण भूमिका निभाएगी।
परियोजना:https://top.aibase.com/tool/video-t1