हाल ही में, नानजिंग विश्वविद्यालय की शोध टीम ने बाइटडांस और दक्षिण-पश्चिम विश्वविद्यालय के साथ मिलकर एक नवोन्मेषी तकनीक - STAR (Spatial-Temporal Augmentation with Text-to-Video Models) पेश की है, जिसका उद्देश्य टेक्स्ट-टू-वीडियो मॉडल का उपयोग करके वास्तविक दुनिया के वीडियो का सुपर-रेसोल्यूशन प्रोसेसिंग करना है। यह तकनीक समय-स्थान संवर्धन विधियों को जोड़ती है, जो निम्न-रेसोल्यूशन वीडियो की गुणवत्ता को प्रभावी ढंग से बढ़ा सकती है, विशेष रूप से वीडियो शेयरिंग प्लेटफार्मों पर डाउनलोड किए गए निम्न स्पष्टता वीडियो के लिए।
शोधकर्ताओं और डेवलपर्स के लिए उपयोग को सुविधाजनक बनाने के लिए, शोध टीम ने GitHub पर STAR मॉडल का पूर्व-प्रशिक्षित संस्करण जारी किया है, जिसमें I2VGen-XL और CogVideoX-5B दो मॉडल शामिल हैं, साथ ही संबंधित अनुमान कोड भी। इन उपकरणों का विमोचन वीडियो प्रोसेसिंग क्षेत्र में एक महत्वपूर्ण प्रगति का प्रतीक है।
इस मॉडल का उपयोग करना अपेक्षाकृत सरल है। सबसे पहले, उपयोगकर्ताओं को HuggingFace से पूर्व-प्रशिक्षित STAR मॉडल डाउनलोड करना होगा और इसे निर्दिष्ट निर्देशिका में रखना होगा। फिर, परीक्षण के लिए वीडियो फ़ाइल तैयार करें और उपयुक्त टेक्स्ट प्रॉम्प्ट विकल्प चुनें, जिसमें बिना प्रॉम्प्ट, स्वचालित जनरेशन या मैन्युअल रूप से प्रॉम्प्ट इनपुट शामिल हैं। उपयोगकर्ता को केवल स्क्रिप्ट में पथ सेटिंग को समायोजित करना होगा, और वे आसानी से वीडियो सुपर-रेसोल्यूशन प्रोसेसिंग कर सकते हैं।
इस परियोजना में विशेष रूप से I2VGen-XL आधारित दो मॉडल डिज़ाइन किए गए हैं, जो विभिन्न स्तरों के वीडियो गुणवत्ता ह्रास प्रोसेसिंग के लिए उपयोग किए जाते हैं, यह सुनिश्चित करते हुए कि विभिन्न आवश्यकताओं को पूरा किया जा सके। इसके अतिरिक्त, CogVideoX-5B मॉडल विशेष रूप से 720x480 इनपुट प्रारूप का समर्थन करता है, जो विशेष परिदृश्यों के लिए लचीला विकल्प प्रदान करता है।
यह शोध न केवल वीडियो सुपर-रेसोल्यूशन तकनीक के विकास के लिए नए विचार प्रदान करता है, बल्कि संबंधित क्षेत्रों के शोधकर्ताओं के लिए नए शोध दिशाओं का मार्ग प्रशस्त करता है। शोध टीम ने I2VGen-XL, VEnhancer, CogVideoX और OpenVid-1M जैसी अग्रणी तकनीकों के प्रति आभार व्यक्त किया है, जो उनके प्रोजेक्ट की नींव रखती हैं।
परियोजना का लिंक: https://github.com/NJU-PCALab/STAR
मुख्य बिंदु:
🌟 नई तकनीक STAR टेक्स्ट-टू-वीडियो मॉडल को जोड़ती है, वीडियो सुपर-रेसोल्यूशन को लागू करती है, वीडियो गुणवत्ता को बढ़ाती है।
🛠️ शोध टीम ने पूर्व-प्रशिक्षित मॉडल और अनुमान कोड जारी किए हैं, उपयोग प्रक्रिया स्पष्ट और सरल है।
📩 संपर्क जानकारी प्रदान की गई है, उपयोगकर्ताओं को शोध टीम के साथ संवाद और चर्चा के लिए प्रोत्साहित किया गया है।