आज, स्टेप स्टार्स और जिली ऑटोमोबाइल ग्रुप ने दो स्टेप श्रृंखला के मल्टी-मॉडल बड़े मॉडल - स्टेप-वीडियो-T2V वीडियो जनरेशन मॉडल और स्टेप-ऑडियो वॉयस मॉडल का संयुक्त रूप से ओपन-सोर्स करने की घोषणा की।

इनमें, स्टेप-वीडियो-T2V वीडियो जनरेशन मॉडल पैरामीटर संख्या और प्रदर्शन दोनों में वैश्विक स्तर पर अग्रणी है। इस मॉडल में 30 अरब पैरामीटर हैं, जो सीधे 204 फ्रेम, 540P रिज़ॉल्यूशन का उच्च गुणवत्ता वाला वीडियो उत्पन्न कर सकता है, यह सुनिश्चित करता है कि उत्पन्न सामग्री की जानकारी की घनत्व उच्च और संगतता मजबूत हो। मूल्यांकन परिणाम दिखाते हैं कि स्टेप-वीडियो-T2V निर्देश पालन, गति चिकनाई, भौतिक तर्कसंगतता, सौंदर्य आदि में उत्कृष्ट प्रदर्शन करता है, और मौजूदा सर्वश्रेष्ठ ओपन-सोर्स वीडियो मॉडलों को स्पष्ट रूप से पार करता है।

微信截图_20250218085337.png

वर्तमान में, ये दोनों मॉडल युआनवेन ऐप में लाइव हैं, ताकि डेवलपर्स अनुभव कर सकें और मूल्यवान सुझाव प्रदान कर सकें।

स्टेप-वीडियो-T2V वीडियो जनरेशन मॉडल जटिल गति, सौंदर्यपूर्ण पात्र, दृश्य कल्पना आदि में उत्कृष्ट जनरेशन क्षमताएं प्रदर्शित करता है। यह निर्देशों को सटीकता से समझ सकता है और वीडियो निर्माताओं को रचनात्मकता प्रस्तुत करने में कुशलता से सहायता कर सकता है। चाहे वह सुरुचिपूर्ण बैले हो, तीव्र कराटे मुकाबला, या तनावपूर्ण बैडमिंटन, तेज़ तैराकी, स्टेप-वीडियो-T2V वास्तविक और भौतिक नियमों के अनुसार चित्र उत्पन्न कर सकता है।

साथ ही, यह विभिन्न कैमरा मूवमेंट विधियों और शॉट स्विचिंग का समर्थन करता है, जो बड़े पैमाने पर दृश्य प्रभाव उत्पन्न कर सकता है। उत्पन्न पात्रों की छवियां और अधिक यथार्थवादी, जीवंत, विस्तृत विवरण और स्वाभाविक अभिव्यक्तियाँ होती हैं।

GitHub:

https://github.com/stepfun-ai/Step-Audio

Hugging Face:

https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b

तकनीकी रिपोर्ट:

https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf