शंघाई जिएयुए स्टारशाइन इंटेलिजेंट टेक्नोलॉजी कंपनी ने अपने नवीनतम चित्र-से-वीडियो मॉडल—Step-Video-TI2V को ओपन सोर्स करने की घोषणा की है। यह मॉडल 30B पैरामीटर वाले Step-Video-T2V पर आधारित है, जो 102 फ्रेम, 5 सेकंड, 540P रिज़ॉल्यूशन वाला वीडियो बना सकता है। इसकी दो मुख्य विशेषताएँ हैं—नियंत्रित गति और नियंत्रित कैमरा मूवमेंट, खासकर एनिमेशन प्रभावों में इसका प्रदर्शन बहुत अच्छा है। मौजूदा ओपन सोर्स चित्र-से-वीडियो मॉडल की तुलना में, Step-Video-TI2V न केवल पैरामीटर के आकार में अधिकतम सीमा प्रदान करता है, बल्कि इसकी नियंत्रित गति क्षमता वीडियो निर्माण परिणामों की गतिशीलता और स्थिरता को संतुलित भी करती है, जिससे रचनाकारों को अधिक लचीला विकल्प मिलता है।

微信截图_20250320143140.png

Step-Video-TI2V के विकास के दौरान, टीम ने दो प्रमुख अनुकूलन किए। सबसे पहले, मूल चित्र के साथ उत्पन्न वीडियो की संगति को बेहतर बनाने के लिए छवि शर्तों को शामिल किया गया। पारंपरिक क्रॉस-अटेंशन विधि के विपरीत, इस मॉडल ने अधिक प्रत्यक्ष तरीका अपनाया है, जिसमें छवि के संगत वेक्टर प्रतिनिधित्व को DiT के पहले फ्रेम के संगत वेक्टर प्रतिनिधित्व के साथ सीधे चैनल आयाम में जोड़ा जाता है, जिससे यह सुनिश्चित होता है कि उत्पन्न वीडियो इनपुट छवि के साथ अत्यधिक संगत है। दूसरा, AdaLN मॉड्यूल के माध्यम से वीडियो गतिशीलता स्कोरिंग जानकारी को शामिल करके, उपयोगकर्ता वीडियो उत्पन्न करते समय विभिन्न गति स्तरों को निर्दिष्ट कर सकते हैं, वीडियो की गतिशीलता को सटीक रूप से नियंत्रित कर सकते हैं, और इस प्रकार गतिशीलता, स्थिरता और संगति को संतुलित कर सकते हैं। इसके अलावा, टीम ने मुख्य क्रिया और कैमरा मूवमेंट पर विशेष रूप से सटीक लेबलिंग की है, जिससे मॉडल के मुख्य गतिशीलता और कैमरा प्रभावों में और सुधार हुआ है।

Step-Video-TI2V की मुख्य विशेषताओं में नियंत्रित गति, कई प्रकार के कैमरा नियंत्रण, उत्कृष्ट एनिमेशन प्रभाव और कई आकारों में निर्माण का समर्थन शामिल है। उपयोगकर्ता अपनी रचनात्मक आवश्यकताओं के अनुसार गतिशील और स्थिर दृश्यों के बीच स्वतंत्र रूप से स्विच कर सकते हैं, बुनियादी ज़ूम इन-आउट, पैन, टिल्ट, लिफ्ट और ड्रॉप से लेकर जटिल फिल्म-स्तरीय कैमरा प्रभावों तक वीडियो बना सकते हैं। यह मॉडल एनिमेशन कार्यों में विशेष रूप से उत्कृष्ट प्रदर्शन करता है, जो एनिमेशन निर्माण और लघु वीडियो निर्माण जैसे अनुप्रयोग परिदृश्यों के लिए बहुत उपयुक्त है। साथ ही, यह कई आकारों के चित्र-से-वीडियो निर्माण का समर्थन करता है, चाहे वह क्षैतिज स्क्रीन, ऊर्ध्वाधर स्क्रीन या वर्गाकार स्क्रीन हो, यह विभिन्न प्लेटफार्मों की आवश्यकताओं को पूरा कर सकता है।

अनुभव पता:

https://yuewen.cn/videos

GitHub:

https://github.com/stepfun-ai/Step-Video-TI2V

Github-ComfyUI:

https://github.com/stepfun-ai/ComfyUI-StepVideo