DiTCtrl

कई मोडल वाले डिफ्यूज़न ट्रांसफ़ॉर्मर में अटेंशन कण्ट्रोल की खोज, बिना किसी ट्यूनिंग के लम्बे वीडियो बनाने के लिए

सामान्य उत्पादवीडियोवीडियो जेनरेशनमल्टी-मॉडल

DiTCtrl एक मल्टी-मॉडल डिफ्यूज़न ट्रांसफ़ॉर्मर (MM-DiT) आर्किटेक्चर पर आधारित वीडियो जेनरेशन मॉडल है, जो बिना किसी अतिरिक्त ट्रेनिंग के कई लगातार प्रॉम्प्ट्स वाले सुसंगत दृश्यों के वीडियो बनाने पर केंद्रित है। यह मॉडल MM-DiT के अटेंशन मैकेनिज़्म का विश्लेषण करके विभिन्न प्रॉम्प्ट्स के बीच सटीक अर्थ नियंत्रण और अटेंशन शेयरिंग को लागू करता है, जिससे स्मूथ ट्रांज़िशन और सुसंगत ऑब्जेक्ट मोशन वाले वीडियो बनते हैं। DiTCtrl के मुख्य लाभों में बिना ट्रेनिंग की आवश्यकता, कई प्रॉम्प्ट वीडियो जेनरेशन कार्य को संभालने की क्षमता और फ़िल्मी स्टाइल ट्रांज़िशन इफ़ेक्ट दिखाने की क्षमता शामिल है। इसके अलावा, DiTCtrl एक नया बेंचमार्क MPVBench भी प्रदान करता है, जो विशेष रूप से मल्टी-प्रॉम्प्ट वीडियो जेनरेशन के प्रदर्शन का मूल्यांकन करने के लिए डिज़ाइन किया गया है।

लक्ष्य दर्शक वीडियो निर्माता
कंटेंट क्रिएटर और शोधकर्ता हैं
जिन्हें कई प्रॉम्प्ट्स और गतिशील दृश्यों वाले वीडियो कंटेंट बनाने की आवश्यकता होती है। DiTCtrl उनके लिए उपयुक्त है क्योंकि यह एक जटिल ट्रेनिंग प्रक्रिया के बिना उच्च-गुणवत्ता वाले
सुसंगत वीडियो कंटेंट बनाने का एक तरीका प्रदान करता है
साथ ही वीडियो एडिटिंग और लॉन्ग वीडियो जेनरेशन भी करता है

एक वीडियो बनाएँ जो 'एक बिल्ली एक काले चूहे को देख रही है' के बारे में हो
विभिन्न प्रॉम्प्ट्स के बीच स्मूथ ट्रांज़िशन दिखाएँ।
DiTCtrl का उपयोग करके एक लॉन्ग वीडियो बनाएँ
जिसकी सामग्री 'समुद्र में मछली' हो
वीडियो की सुसंगतता और गतिशील प्रभाव दिखाएँ।

1. वीडियो जेनरेशन के इनपुट के रूप में कई लगातार वीडियो प्रॉम्प्ट तैयार करें।
2. DiTCtrl मॉडल का उपयोग करें
इन प्रॉम्प्ट्स को मॉडल में इनपुट करें।
3. मॉडल प्रत्येक प्रॉम्प्ट की अर्थ सामग्री का विश्लेषण करेगा और आंतरिक रूप से अटेंशन मैकेनिज़्म की गणना करेगा।
4. मॉडल कई प्रॉम्प्ट्स की वीडियो सामग्री सहित वीडियो का प्रारंभिक संभावित प्रतिनिधित्व उत्पन्न करेगा।

Best AI Websites & Tools

DiTCtrl

DiTCtrl विकल्प

Wan2.1 — Wan2.1 एक खुला स्रोत उन्नत बड़े पैमाने पर वीडियो जेनरेशन मॉडल है जो कई वीडियो जेनरेशन कार्यों का समर्थन करता है।

AI कुंग फू वीडियो जेनरेटर — Hailuo AI तकनीक का उपयोग करके ऑनलाइन पेशेवर कुंग फू वीडियो बनाएँ।

गोकु — गोकु एक प्रवाह-आधारित वीडियो जेनरेशन बेस मॉडल है जो उच्च-गुणवत्ता वाले वीडियो निर्माण पर केंद्रित है।

AI वीडियो स्टार्टिंग किट — यह एक ओपन सोर्स प्रोजेक्ट है जो ब्राउज़र में AI वीडियो जेनरेशन मॉडल का प्रदर्शन करता है।

डिफ्यूज़न ऐज़ शेडर — एक एकीकृत आर्किटेक्चर मॉडल जो कई वीडियो जेनरेशन कंट्रोल कार्यों का समर्थन करता है।

डिफसेंसी — कस्टमाइज़्ड कॉमिक्स जनरेट करने वाला मॉडल, जो मल्टी-मॉडल LLMs और डिफ़्यूज़न मॉडल को जोड़ता है।

INFP — दो व्यक्तियों के बीच बातचीत के लिए ऑडियो-संचालित इंटरैक्टिव हेड जेनरेशन फ़्रेमवर्क।

LTX-वीडियो — DiT-आधारित वीडियो जेनरेशन मॉडल, जो उच्च-गुणवत्ता वाले वीडियो को वास्तविक समय में उत्पन्न करता है।

फ़ैशन-VDM — वर्चुअल ट्राई-ऑन के लिए वीडियो डिफ्यूज़न मॉडल।

CogVideoX1.5-5B-SAT — खुला स्रोत वीडियो जेनरेशन मॉडल, जो 10 सेकंड के वीडियो और उच्च रिज़ॉल्यूशन का समर्थन करता है।

डेटा-जूसर — बड़े भाषा मॉडल के लिए उच्च-गुणवत्ता वाला डेटा प्रदान करने वाला एक वन-स्टॉप डेटा प्रोसेसिंग सिस्टम।

टोरा — वीडियो जनरेट करने वाला ट्रैक-गाइडेड डिफ्यूज़न ट्रांसफ़ॉर्मर

ओपन-सोरा प्लान v1.2 — टेक्स्ट-टू-वीडियो जेनरेशन के क्षेत्र में एक उन्नत मॉडल आर्किटेक्चर

GLM-4V-9B — ओपन सोर्स मल्टी-मॉडल प्री-ट्रेन्ड मॉडल, जिसमें चीनी और अंग्रेजी दोनों भाषाओं में बातचीत करने की क्षमता है।

एनिमेटएनीवन — नोविटा एआई द्वारा प्रदान किया गया अनौपचारिक एनिमेट एनीवन कार्यान्वयन

PCM — एक नया पाठ-सशर्त उच्च-रिज़ॉल्यूशन जेनरेटिव मॉडल

StoryDiffusion — StoryDiffusion सुसंगत चित्र और वीडियो उत्पन्न करके जादुई कहानियाँ बनाने में सक्षम है।

OPT2I — LLM का उपयोग करके T2I छवि निर्माण की सुसंगतता में सुधार

GenAD — स्वचालित ड्राइविंग के लिए एक बड़ा पैमाने वाला वीडियो जेनरेटिंग मॉडल

व्लॉगर (VLOGGER) — टेक्स्ट और वॉयस से संचालित मानव वीडियो जेनरेशन, एकल व्यक्ति इनपुट इमेज से वीडियो बनाता है।

PIXART — PIXART-Σ एक 4K पाठ-से-छवि जनरेटिव डिफ्यूज़न ट्रांसफ़ॉर्मर मॉडल है।

सोरा वीडियो जेनरेटर — उच्च-गुणवत्ता वाले AI वीडियो को टेक्स्ट से उत्पन्न करें