शंघाई जिएयुए स्टारशाइन इंटेलिजेंट टेक्नोलॉजी कंपनी ने अपने नवीनतम चित्र-से-वीडियो मॉडल—Step-Video-TI2V को ओपन सोर्स करने की घोषणा की है। यह मॉडल 30B पैरामीटर वाले Step-Video-T2V पर आधारित है, जो 102 फ्रेम, 5 सेकंड, 540P रिज़ॉल्यूशन वाला वीडियो बना सकता है। इसकी दो मुख्य विशेषताएँ हैं—नियंत्रित गति और नियंत्रित कैमरा मूवमेंट, खासकर एनिमेशन प्रभावों में इसका प्रदर्शन बहुत अच्छा है। मौजूदा ओपन सोर्स चित्र-से-वीडियो मॉडल की तुलना में, Step-Video-TI2V न केवल पैरामीटर के आकार में अधिकतम सीमा प्रदान करता है, बल्कि इसकी नियंत्रित गति क्षमता वीडियो निर्माण परिणामों की गतिशीलता और स्थिरता को संतुलित भी करती है, जिससे रचनाकारों को अधिक लचीला विकल्प मिलता है।
Step-Video-TI2V के विकास के दौरान, टीम ने दो प्रमुख अनुकूलन किए। सबसे पहले, मूल चित्र के साथ उत्पन्न वीडियो की संगति को बेहतर बनाने के लिए छवि शर्तों को शामिल किया गया। पारंपरिक क्रॉस-अटेंशन विधि के विपरीत, इस मॉडल ने अधिक प्रत्यक्ष तरीका अपनाया है, जिसमें छवि के संगत वेक्टर प्रतिनिधित्व को DiT के पहले फ्रेम के संगत वेक्टर प्रतिनिधित्व के साथ सीधे चैनल आयाम में जोड़ा जाता है, जिससे यह सुनिश्चित होता है कि उत्पन्न वीडियो इनपुट छवि के साथ अत्यधिक संगत है। दूसरा, AdaLN मॉड्यूल के माध्यम से वीडियो गतिशीलता स्कोरिंग जानकारी को शामिल करके, उपयोगकर्ता वीडियो उत्पन्न करते समय विभिन्न गति स्तरों को निर्दिष्ट कर सकते हैं, वीडियो की गतिशीलता को सटीक रूप से नियंत्रित कर सकते हैं, और इस प्रकार गतिशीलता, स्थिरता और संगति को संतुलित कर सकते हैं। इसके अलावा, टीम ने मुख्य क्रिया और कैमरा मूवमेंट पर विशेष रूप से सटीक लेबलिंग की है, जिससे मॉडल के मुख्य गतिशीलता और कैमरा प्रभावों में और सुधार हुआ है।
Step-Video-TI2V की मुख्य विशेषताओं में नियंत्रित गति, कई प्रकार के कैमरा नियंत्रण, उत्कृष्ट एनिमेशन प्रभाव और कई आकारों में निर्माण का समर्थन शामिल है। उपयोगकर्ता अपनी रचनात्मक आवश्यकताओं के अनुसार गतिशील और स्थिर दृश्यों के बीच स्वतंत्र रूप से स्विच कर सकते हैं, बुनियादी ज़ूम इन-आउट, पैन, टिल्ट, लिफ्ट और ड्रॉप से लेकर जटिल फिल्म-स्तरीय कैमरा प्रभावों तक वीडियो बना सकते हैं। यह मॉडल एनिमेशन कार्यों में विशेष रूप से उत्कृष्ट प्रदर्शन करता है, जो एनिमेशन निर्माण और लघु वीडियो निर्माण जैसे अनुप्रयोग परिदृश्यों के लिए बहुत उपयुक्त है। साथ ही, यह कई आकारों के चित्र-से-वीडियो निर्माण का समर्थन करता है, चाहे वह क्षैतिज स्क्रीन, ऊर्ध्वाधर स्क्रीन या वर्गाकार स्क्रीन हो, यह विभिन्न प्लेटफार्मों की आवश्यकताओं को पूरा कर सकता है।
अनुभव पता:
https://yuewen.cn/videos
GitHub:
https://github.com/stepfun-ai/Step-Video-TI2V
Github-ComfyUI:
https://github.com/stepfun-ai/ComfyUI-StepVideo