DiTCtrl

कई मोडल वाले डिफ्यूज़न ट्रांसफ़ॉर्मर में अटेंशन कण्ट्रोल की खोज, बिना किसी ट्यूनिंग के लम्बे वीडियो बनाने के लिए

सामान्य उत्पादवीडियोवीडियो जेनरेशनमल्टी-मॉडल
DiTCtrl एक मल्टी-मॉडल डिफ्यूज़न ट्रांसफ़ॉर्मर (MM-DiT) आर्किटेक्चर पर आधारित वीडियो जेनरेशन मॉडल है, जो बिना किसी अतिरिक्त ट्रेनिंग के कई लगातार प्रॉम्प्ट्स वाले सुसंगत दृश्यों के वीडियो बनाने पर केंद्रित है। यह मॉडल MM-DiT के अटेंशन मैकेनिज़्म का विश्लेषण करके विभिन्न प्रॉम्प्ट्स के बीच सटीक अर्थ नियंत्रण और अटेंशन शेयरिंग को लागू करता है, जिससे स्मूथ ट्रांज़िशन और सुसंगत ऑब्जेक्ट मोशन वाले वीडियो बनते हैं। DiTCtrl के मुख्य लाभों में बिना ट्रेनिंग की आवश्यकता, कई प्रॉम्प्ट वीडियो जेनरेशन कार्य को संभालने की क्षमता और फ़िल्मी स्टाइल ट्रांज़िशन इफ़ेक्ट दिखाने की क्षमता शामिल है। इसके अलावा, DiTCtrl एक नया बेंचमार्क MPVBench भी प्रदान करता है, जो विशेष रूप से मल्टी-प्रॉम्प्ट वीडियो जेनरेशन के प्रदर्शन का मूल्यांकन करने के लिए डिज़ाइन किया गया है।
वेबसाइट खोलें

DiTCtrl विकल्प