वेबसाइट मालिकों का घर (ChinaZ.com) 17 जून: पीकिंग विश्वविद्यालय और काईशो एआई टीम ने जटिल वीडियो निर्माण की समस्या को सफलतापूर्वक हल किया है। उन्होंने VideoTetris नामक एक नया ढांचा पेश किया है, जो विभिन्न विवरणों को जैसे पजल के टुकड़ों की तरह आसानी से संयोजित कर सकता है, जिससे उच्च कठिनाई और जटिल निर्देशों वाले वीडियो बनाए जा सकते हैं। यह ढांचा जटिल वीडियो निर्माण कार्यों में Pika, Gen-2 जैसे व्यावसायिक मॉडलों को पीछे छोड़ देता है।
VideoTetris ढांचा संयोजन वीडियो निर्माण कार्य को पहली बार परिभाषित करता है, जिसमें दो उप-कार्य शामिल हैं: 1) जटिल संयोजन निर्देशों के अनुसार वीडियो निर्माण; 2) प्रगतिशील संयोजन बहु-ऑब्जेक्ट निर्देशों के अनुसार लंबे वीडियो निर्माण। टीम ने पाया कि लगभग सभी मौजूदा ओपन-सोर्स मॉडल और व्यावसायिक मॉडल सही वीडियो बनाने में असफल रहे हैं। उदाहरण के लिए, जब "बाईं ओर एक प्यारा भूरा कुत्ता, दाईं ओर एक सो रही बिल्ली धूप में" इनपुट किया जाता है, तो परिणामस्वरूप उत्पन्न वीडियो अक्सर दो वस्तुओं की जानकारी को मिलाकर अजीब दिखाई देता है।
इसके विपरीत, VideoTetris सभी स्थिति जानकारी और विवरण विशेषताओं को सफलतापूर्वक बनाए रखने में सक्षम है। लंबे वीडियो निर्माण में, यह अधिक जटिल निर्देशों का समर्थन करता है, जैसे "एक प्यारे भूरे गिलहरी से एक प्यारे भूरे गिलहरी और एक प्यारी सफेद गिलहरी पर एक ढेर हेज़लनट पर संक्रमण"। उत्पन्न वीडियो क्रम इनपुट निर्देशों के अनुरूप होता है, और दोनों गिलहरियाँ स्वाभाविक रूप से भोजन का आदान-प्रदान कर सकती हैं।
VideoTetris ढांचा समय-स्थान संयोजन प्रसार विधि का उपयोग करता है। यह पहले पाठ संकेतों को समय के अनुसार विघटित करता है, और विभिन्न वीडियो फ्रेम के लिए विभिन्न संकेत जानकारी निर्दिष्ट करता है। फिर, प्रत्येक फ्रेम पर स्थानिक आयाम का विघटन किया जाता है, जिससे विभिन्न वस्तुओं को विभिन्न वीडियो क्षेत्रों से जोड़ा जाता है। अंत में, समय-स्थान पार क्रॉस ध्यान के माध्यम से संयोजन किया जाता है, जिससे प्रभावी संयोजन निर्देश निर्माण संभव होता है।
उच्च गुणवत्ता वाले लंबे वीडियो उत्पन्न करने के लिए, टीम ने एक संवर्धित प्रशिक्षण डेटा पूर्व-प्रसंस्करण विधि भी प्रस्तुत की है, जिससे लंबे वीडियो निर्माण अधिक गतिशील और स्थिर हो गया है। इसके अलावा, संदर्भ फ्रेम ध्यान तंत्र को पेश किया गया है, जो पिछले फ्रेम की जानकारी को मूल VAE का उपयोग करके कोडित करता है, जो अन्य मॉडलों द्वारा CLIP कोडिंग के तरीके से भिन्न है, जिससे बेहतर सामग्री स्थिरता प्राप्त होती है।
अनुकूलित परिणाम यह है कि लंबे वीडियो में अब बड़े पैमाने पर रंग偏差 नहीं है, जो जटिल निर्देशों के अनुसार बेहतर अनुकूलित होता है, उत्पन्न वीडियो अधिक गतिशील और स्वाभाविक होता है। टीम ने नए मूल्यांकन मानदंड VBLIP-VQA और VUnidet भी पेश किए हैं, जो पहली बार संयोजन निर्माण मूल्यांकन विधियों को वीडियो आयाम में विस्तारित करते हैं।
प्रयोगात्मक परीक्षणों से पता चलता है कि संयोजन वीडियो निर्माण क्षमता में, VideoTetris मॉडल का प्रदर्शन सभी ओपन-सोर्स मॉडलों, यहां तक कि व्यावसायिक मॉडलों जैसे Gen-2 और Pika को भी पीछे छोड़ देता है। बताया गया है कि यह कोड पूरी तरह से ओपन-सोर्स होगा।
प्रोजेक्ट का पता: https://top.aibase.com/tool/videotetris