सर्वश्रेष्ठ परिणाम! चरण तारे ओपन-सोर्स Step-Video-T2V वीडियो जनरेशन मॉडल

AIbase基地

द्वारा प्रकाशितAI समाचार · 3 मिनट पढ़ें · Feb 18, 2025

283

आज, स्टेप स्टार्स और जिली ऑटोमोबाइल ग्रुप ने दो स्टेप श्रृंखला के मल्टी-मॉडल बड़े मॉडल - स्टेप-वीडियो-T2V वीडियो जनरेशन मॉडल और स्टेप-ऑडियो वॉयस मॉडल का संयुक्त रूप से ओपन-सोर्स करने की घोषणा की।

इनमें, स्टेप-वीडियो-T2V वीडियो जनरेशन मॉडल पैरामीटर संख्या और प्रदर्शन दोनों में वैश्विक स्तर पर अग्रणी है। इस मॉडल में 30 अरब पैरामीटर हैं, जो सीधे 204 फ्रेम, 540P रिज़ॉल्यूशन का उच्च गुणवत्ता वाला वीडियो उत्पन्न कर सकता है, यह सुनिश्चित करता है कि उत्पन्न सामग्री की जानकारी की घनत्व उच्च और संगतता मजबूत हो। मूल्यांकन परिणाम दिखाते हैं कि स्टेप-वीडियो-T2V निर्देश पालन, गति चिकनाई, भौतिक तर्कसंगतता, सौंदर्य आदि में उत्कृष्ट प्रदर्शन करता है, और मौजूदा सर्वश्रेष्ठ ओपन-सोर्स वीडियो मॉडलों को स्पष्ट रूप से पार करता है।

微信截图_20250218085337.png

वर्तमान में, ये दोनों मॉडल युआनवेन ऐप में लाइव हैं, ताकि डेवलपर्स अनुभव कर सकें और मूल्यवान सुझाव प्रदान कर सकें।

स्टेप-वीडियो-T2V वीडियो जनरेशन मॉडल जटिल गति, सौंदर्यपूर्ण पात्र, दृश्य कल्पना आदि में उत्कृष्ट जनरेशन क्षमताएं प्रदर्शित करता है। यह निर्देशों को सटीकता से समझ सकता है और वीडियो निर्माताओं को रचनात्मकता प्रस्तुत करने में कुशलता से सहायता कर सकता है। चाहे वह सुरुचिपूर्ण बैले हो, तीव्र कराटे मुकाबला, या तनावपूर्ण बैडमिंटन, तेज़ तैराकी, स्टेप-वीडियो-T2V वास्तविक और भौतिक नियमों के अनुसार चित्र उत्पन्न कर सकता है।

साथ ही, यह विभिन्न कैमरा मूवमेंट विधियों और शॉट स्विचिंग का समर्थन करता है, जो बड़े पैमाने पर दृश्य प्रभाव उत्पन्न कर सकता है। उत्पन्न पात्रों की छवियां और अधिक यथार्थवादी, जीवंत, विस्तृत विवरण और स्वाभाविक अभिव्यक्तियाँ होती हैं।

GitHub:

https://github.com/stepfun-ai/Step-Audio

Hugging Face:

https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b

तकनीकी रिपोर्ट:

https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf

शेन्ज़ेन ने मूर्त बुद्धिमान रोबोट तकनीकी नवाचार कार्य योजना जारी की, बहु-मोडल बड़े मॉडल के निर्माण पर ध्यान केंद्रित किया

शेन्ज़ेन ने हाल ही में एक मूर्त बुद्धिमान रोबोट तकनीकी नवाचार कार्य योजना जारी की है, जो बहु-मोडल बड़े मॉडल के निर्माण पर ध्यान केंद्रित करती है। यह योजना उन्नत रोबोट तकनीक के विकास और इसके व्यावसायिक अनुप्रयोगों को बढ़ावा देने के लिए डिज़ाइन की गई है।

मोर थ्रेड और पहचान बुद्धिमत्ता के बीच सहयोग हुआ, 'एक पत्ता हल्का जहाज' बहु-मोडल बड़े मॉडल के अनुकूलन का काम पूरा किया गया

हाल ही में, मोर थ्रेड और पहचान बुद्धिमत्ता ने रणनीतिक सहयोग की घोषणा की, ताकि घरेलू पूर्ण कार्यात्मक GPU को उद्योग बड़े मॉडल समाधान में लागू करने के लिए संयुक्त रूप से प्रयास किया जा सके। दोनों पक्षों ने मोर थ्रेड क्वांगआ झीकु वर्कर और पहचान बुद्धिमत्ता 'एक पत्ता हल्का जहाज' बहु-मोडल बड़े मॉडल के अनुकूलन का काम पूरा कर लिया है, जो दोनों के कृत्रिम बुद्धिमत्ता क्षेत्र में अपने-अपने संसाधनों का एकीकरण करता है, और अधिक बुद्धिमान और प्रभावशाली सेवा अनुभव प्रदान करने के लिए समर्पित है।

दीवार बुद्धिमत्ता बहु-मोडल बड़े मॉडल 'दीवार लुका लुका' आधिकारिक तौर पर जनता के लिए खुली सेवाएं प्रदान करता है

दीवार बुद्धिमत्ता का बहु-मोडल बड़ा मॉडल एप्लीकेशन 'दीवार लुका लुका' आधिकारिक तौर पर जनता के लिए खुली सेवाएं प्रदान करता है। 'दीवार लुका लुका' दीवार बुद्धिमत्ता द्वारा विकसित एक स्व-निर्मित शताब्दी पैरामीटर आधार मॉडल CPM पर आधारित बहु-मोडल बुद्धिमान संवाद सहायक है। लुका में चीनी और अंग्रेजी भाषा संवाद, कोड, ज्ञान, तर्क और चित्र समझने की क्षमताएं हैं। दीवार बुद्धिमत्ता AI एजेंट तकनीक और लुका को मिलाकर बड़े मॉडल अनुप्रयोग की संभावनाओं का लाभ उठाएगी। दीवार बुद्धिमत्ता तिनहुआ विश्वविद्यालय और OpenBMB ओपन-सोर्स समुदाय के साथ सहयोग कर रही है, बड़े

मार यि टीम ने खोजा: बहु-मोडल बड़े मॉडल का सूक्ष्मकरण विनाशकारी भूलने का कारण बन सकता है

मार यि टीम ने EMT ढांचा प्रस्तुत किया, जो सूक्ष्मकरण के बाद के बहु-मोडल बड़े मॉडल (MLLM) के विनाशकारी भूलने का मूल्यांकन करता है। प्रयोगों में यह पता चला कि MLLM का सूक्ष्मकरण सूक्ष्मकरण डेटा सेट के प्रदर्शन को बढ़ाने के साथ-साथ अन्य डेटा सेट के प्रदर्शन में गिरावट भी पैदा करता है। सूक्ष्मकरण प्रक्रिया के दौरान, MLLM सूक्ष्मकरण डेटा सेट से संबंधित भ्रमित पाठ उत्पन्न करता है, मूल प्रश्न की अनदेखी करता है। यह अध्ययन भविष्य के कार्य के लिए एक ढांचा और मानक प्रदान करता है, मॉडल डिजाइन और प्रशिक्षण तकनीकों को और अधिक अनुकूलित करने की आवश्यकता है। मार यि टीम ने MLLM में विनाशकारी भूलने की समस्या का पहली बार प्रणालीगत मूल्यांकन किया, विभिन्न क्षमताओं में संतुलन स्थापित किया।

AI समाचार

सर्वश्रेष्ठ परिणाम! चरण तारे ओपन-सोर्स Step-Video-T2V वीडियो जनरेशन मॉडल

AIbase基地

संबंधित AI समाचार अनुशंसाएँ

दीवार बुद्धिमत्ता बहु-मोडल बड़े मॉडल 'दीवार लुका लुका' आधिकारिक तौर पर जनता के लिए खुली सेवाएं प्रदान करता है

मार यि टीम ने खोजा: बहु-मोडल बड़े मॉडल का सूक्ष्मकरण विनाशकारी भूलने का कारण बन सकता है