हाल ही में, "वन-मिनट वीडियो जेनरेशन विद टेस्ट-टाइम ट्रेनिंग" (एक मिनट का वीडियो निर्माण और परीक्षण समय प्रशिक्षण) नामक एक नया शोध पत्र प्रकाशित हुआ है, जो कृत्रिम बुद्धिमत्ता वीडियो निर्माण तकनीक के एक नए युग का प्रतीक है। इस शोध ने पूर्व-प्रशिक्षित ट्रांसफार्मर मॉडल में एक अभिनव परीक्षण-समय प्रशिक्षण (TTT) परत पेश करके, एक मिनट के "टॉम एंड जैरी" एनिमेटेड वीडियो को सफलतापूर्वक उत्पन्न किया है। यह तकनीक न केवल पारंपरिक AI वीडियो निर्माण की सीमाओं को समय अवधि में तोड़ती है, बल्कि छवि की निरंतरता और कहानी की पूर्णता में भी आश्चर्यजनक ऊंचाइयों तक पहुँचती है, जिससे AI द्वारा संचालित रचनात्मक सामग्री उत्पादन के लिए नए अवसर खुलते हैं।
इस शोध की मुख्य विशेषता इसकी निर्माण प्रक्रिया की "एक बार में" प्रकृति है। ऐसा कहा जाता है कि प्रत्येक वीडियो मॉडल द्वारा सीधे उत्पन्न किया जाता है, बिना किसी बाद के संपादन, जोड़ या मानवीय सजावट के, और सभी कहानियाँ पूरी तरह से नई रचनाएँ हैं। शोध दल ने मौजूदा ट्रांसफार्मर आर्किटेक्चर में TTT परत जोड़कर और इसे ठीक करके, मॉडल को एक मिनट के वीडियो में मजबूत समय स्थिरता बनाए रखने में सक्षम बनाया है। इसका मतलब है कि चाहे टॉम की पीछा करने की हरकत हो या जैरी की चालाक प्रतिक्रिया, स्क्रीन पर पात्र और दृश्य निर्बाध रूप से जुड़ते हैं, जिससे पारंपरिक एनीमेशन के समान एक सहज अनुभव मिलता है।
तकनीकी विश्लेषण से पता चलता है कि TTT परत का परिचय इस सफलता की कुंजी है। लंबे क्रम के डेटा को संसाधित करते समय पारंपरिक ट्रांसफार्मर मॉडल अक्सर स्व-ध्यान तंत्र की दक्षता की बाधा के कारण लंबे समय तक वीडियो उत्पन्न करने में असमर्थ होते हैं। और TTT परत परीक्षण चरण में मॉडल की छिपी अवस्था को गतिशील रूप से अनुकूलित करके, जटिल बहु-दृश्य कहानियों की अभिव्यक्ति क्षमता को काफी बढ़ाती है। "टॉम एंड जैरी" एनीमेशन को परीक्षण डेटासेट के रूप में उपयोग करते हुए, इस मॉडल द्वारा उत्पन्न वीडियो न केवल गति की चिकनाई और चरित्र की स्थिरता में उत्कृष्ट प्रदर्शन करता है, बल्कि पाठ स्क्रिप्ट के अनुसार स्वचालित रूप से नए हास्य कथानक भी बना सकता है, जो कहानी निर्माण में AI की विशाल क्षमता को दर्शाता है।
मौजूदा तकनीकों की तुलना में, यह विधि कई पहलुओं में बेहतर है। पारंपरिक वीडियो निर्माण मॉडल, जैसे कि माम्बा या स्लाइडिंग विंडो ध्यान तंत्र पर आधारित सिस्टम, अक्सर लंबे वीडियो में कहानी की निरंतरता बनाए रखने में असमर्थ होते हैं, और विवरणों में विकृतियाँ भी हो सकती हैं। और इस शोध के परिणाम मानव मूल्यांकन में 34 एलो अंकों की बढ़त के साथ, माम्बा 2 सहित कई बेंचमार्क मॉडल को हराते हैं, जो निर्माण गुणवत्ता में इसकी उल्लेखनीय वृद्धि को दर्शाता है। फिर भी, शोध दल ने स्वीकार किया कि पूर्व-प्रशिक्षित मॉडल के 500 मिलियन पैरामीटर के पैमाने तक सीमित होने के कारण, उत्पन्न वीडियो में अभी भी कुछ खामियाँ हैं, जैसे कि कभी-कभी स्क्रीन आर्टिफैक्ट, लेकिन इसने इसकी तकनीकी संभावनाओं की चमक को नहीं छिपाया है।
इस तकनीक की अनुप्रयोग क्षमता आशाजनक है। लघु वीडियो सामग्री निर्माण से लेकर शैक्षिक एनीमेशन उत्पादन तक, और फिल्म उद्योग के अवधारणा पूर्वावलोकन तक, इसकी "एक-क्लिक लंबे वीडियो निर्माण" क्षमता उत्पादन लागत को कम करने और रचनात्मक प्रक्रिया को तेज करने की उम्मीद करती है। शोध दल ने कहा कि वर्तमान प्रयोग केवल एक मिनट के वीडियो तक ही सीमित है, जो कंप्यूटिंग संसाधनों द्वारा सीमित है, लेकिन यह विधि सिद्धांत रूप में लंबे समय तक और अधिक जटिल कहानी सामग्री तक विस्तारित की जा सकती है, और भविष्य में एनीमेशन और वीडियो उद्योग के उत्पादन मोड को पूरी तरह से बदल सकती है।
यह AI वीडियो निर्माण क्षेत्र में एक ऐतिहासिक प्रयास है, "वन-मिनट वीडियो जेनरेशन विद टेस्ट-टाइम ट्रेनिंग" के प्रकाशन ने न केवल तकनीकी नवाचार की शक्ति को दिखाया है, बल्कि उद्योग के लिए एक नया मानक भी स्थापित किया है। यह अनुमान लगाया जा सकता है कि इस तकनीक के आगे के अनुकूलन और प्रचार के साथ, AI सामग्री निर्माण में अधिक महत्वपूर्ण भूमिका निभाएगा, और हमें और अधिक आश्चर्यजनक दृश्य अनुभव प्रदान करेगा।
प्रोजेक्ट पता: https://test-time-training.github.io/video-dit/