आज, स्टेप स्टार्स और जिली ऑटोमोबाइल ग्रुप ने दो स्टेप श्रृंखला के मल्टी-मॉडल बड़े मॉडल - स्टेप-वीडियो-T2V वीडियो जनरेशन मॉडल और स्टेप-ऑडियो वॉयस मॉडल का संयुक्त रूप से ओपन-सोर्स करने की घोषणा की।
इनमें, स्टेप-वीडियो-T2V वीडियो जनरेशन मॉडल पैरामीटर संख्या और प्रदर्शन दोनों में वैश्विक स्तर पर अग्रणी है। इस मॉडल में 30 अरब पैरामीटर हैं, जो सीधे 204 फ्रेम, 540P रिज़ॉल्यूशन का उच्च गुणवत्ता वाला वीडियो उत्पन्न कर सकता है, यह सुनिश्चित करता है कि उत्पन्न सामग्री की जानकारी की घनत्व उच्च और संगतता मजबूत हो। मूल्यांकन परिणाम दिखाते हैं कि स्टेप-वीडियो-T2V निर्देश पालन, गति चिकनाई, भौतिक तर्कसंगतता, सौंदर्य आदि में उत्कृष्ट प्रदर्शन करता है, और मौजूदा सर्वश्रेष्ठ ओपन-सोर्स वीडियो मॉडलों को स्पष्ट रूप से पार करता है।
वर्तमान में, ये दोनों मॉडल युआनवेन ऐप में लाइव हैं, ताकि डेवलपर्स अनुभव कर सकें और मूल्यवान सुझाव प्रदान कर सकें।
स्टेप-वीडियो-T2V वीडियो जनरेशन मॉडल जटिल गति, सौंदर्यपूर्ण पात्र, दृश्य कल्पना आदि में उत्कृष्ट जनरेशन क्षमताएं प्रदर्शित करता है। यह निर्देशों को सटीकता से समझ सकता है और वीडियो निर्माताओं को रचनात्मकता प्रस्तुत करने में कुशलता से सहायता कर सकता है। चाहे वह सुरुचिपूर्ण बैले हो, तीव्र कराटे मुकाबला, या तनावपूर्ण बैडमिंटन, तेज़ तैराकी, स्टेप-वीडियो-T2V वास्तविक और भौतिक नियमों के अनुसार चित्र उत्पन्न कर सकता है।
साथ ही, यह विभिन्न कैमरा मूवमेंट विधियों और शॉट स्विचिंग का समर्थन करता है, जो बड़े पैमाने पर दृश्य प्रभाव उत्पन्न कर सकता है। उत्पन्न पात्रों की छवियां और अधिक यथार्थवादी, जीवंत, विस्तृत विवरण और स्वाभाविक अभिव्यक्तियाँ होती हैं।
GitHub:
https://github.com/stepfun-ai/Step-Audio
Hugging Face:
https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b
तकनीकी रिपोर्ट:
https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf