हाल ही में, आर्टिफिशियल इंटेलिजेंस कंपनी Rhymes AI ने अपने उन्नत टेक्स्ट जनरेटिंग वीडियो मॉडल Allegro को आधिकारिक रूप से ओपन-सोर्स किया है। Allegro उपयोगकर्ताओं को सरल पाठ वर्णन को उच्च गुणवत्ता वाले लघु वीडियो क्लिप में बदलने की अनुमति देता है, जो आर्टिफिशियल इंटेलिजेंस द्वारा वीडियो निर्माण के क्षेत्र में निर्माताओं, डेवलपर्स और शोधकर्ताओं के लिए नए अवसरों का मार्ग प्रशस्त करता है।
Allegro उपयोगकर्ताओं द्वारा प्रदान किए गए पाठ संकेत के आधार पर 6 सेकंड, 15 फ्रेम/सेकंड, 720p के रिज़ॉल्यूशन वाले उच्च गुणवत्ता वाले वीडियो उत्पन्न कर सकता है, जिसमें विभिन्न फिल्म विषयों को शामिल किया गया है, जैसे कि व्यक्तियों और जानवरों के क्लोज़-अप से लेकर विभिन्न दृश्यों की क्रियाएं, लगभग किसी भी पाठ वर्णन आधारित दृश्य को साकार करने की क्षमता है।
Allegro की मुख्य तकनीक में बड़े पैमाने पर वीडियो डेटा प्रोसेसिंग, कच्चे वीडियो को दृश्य टोकन में संकुचित करना और वीडियो डिफ्यूजन ट्रांसफार्मर का विस्तार शामिल है।
बड़े पैमाने पर वीडियो डेटा प्रोसेसिंग के मामले में, Rhymes AI ने सिस्टम के डेटा प्रोसेसिंग और फ़िल्टरिंग पाइपलाइन को डिज़ाइन किया है, जिससे कच्चे डेटा से प्रशिक्षण वीडियो निकाले जाते हैं, और डेटा को बहुआयामी वर्गीकरण और क्लस्टरिंग के लिए एक संरचित डेटा प्रणाली विकसित की है, जिससे मॉडल प्रशिक्षण और फ़ाइन-ट्यूनिंग में सुविधा होती है।
वीडियो को दृश्य टोकन में संकुचन के मामले में, Allegro कच्चे वीडियो को छोटे दृश्य टोकन में संकुचित करने के लिए वीडियो वेरिएशनल ऑटोएन्कोडर (VideoVAE) का उपयोग करता है, आवश्यक विवरणों को बनाए रखते हुए, अधिक सुचारू और कुशल वीडियो निर्माण को संभव बनाता है। VideoVAE पूर्व-प्रशिक्षित इमेज VAE पर आधारित है और समय-स्थान मॉडलिंग परतों का विस्तार करता है, जो स्थानिक संकुचन क्षमता का प्रभावी ढंग से उपयोग करता है।
वीडियो डिफ्यूजन ट्रांसफार्मर के विस्तार के मामले में, Allegro का मुख्य हिस्सा इसका विस्तारित डिफ्यूजन ट्रांसफार्मर आर्किटेक्चर है, जो उच्च रिज़ॉल्यूशन वीडियो फ्रेम उत्पन्न करने के लिए डिफ्यूजन मॉडल का उपयोग करता है, वीडियो गति की गुणवत्ता और सुचारुता को सुनिश्चित करता है। Allegro का बैकबोन नेटवर्क DiT (डिफ्यूजन ट्रांसफार्मर) आर्किटेक्चर पर आधारित है, जिसमें 3D RoPE स्थिति एम्बेडिंग और 3D पूर्ण ध्यान तंत्र है। पारंपरिक डिफ्यूजन मॉडल की तुलना में, जो UNet आर्किटेक्चर का उपयोग करते हैं, ट्रांसफार्मर संरचना मॉडल के विस्तार के लिए अधिक अनुकूल है। 3D ध्यान तंत्र का उपयोग करके, DiT वीडियो फ्रेम के स्थानिक आयाम और उनके समय विकास को एक साथ संसाधित कर सकता है, जिससे गति और संदर्भ की अधिक बारीक समझ प्राप्त होती है।
Rhymes AI का कहना है कि Allegro केवल शुरुआत है, टीम अधिक उन्नत सुविधाओं के विकास में सक्रिय रूप से लगी हुई है, जिसमें छवि से वीडियो उत्पन्न करना, गति नियंत्रण और लंबे, कथा आधारित, स्टोरीबोर्ड शैली वीडियो निर्माण का समर्थन शामिल है।
आर्टिफिशियल इंटेलिजेंस द्वारा संचालित वीडियो निर्माण को व्यापक उपयोगकर्ताओं द्वारा अधिक आसानी से अपनाने के लिए, Rhymes AI ने Allegro के मॉडल वेट्स और कोड को पूरी तरह से ओपन-सोर्स किया है, और समुदाय को खोजने, रचनात्मकता को मुक्त करने और इसके आधार पर निर्माण करने के लिए प्रोत्साहित किया है, ताकि आर्टिफिशियल इंटेलिजेंस द्वारा वीडियो निर्माण तकनीक में सहयोगात्मक प्रगति प्राप्त की जा सके।
प्रोजेक्ट लिंक: https://github.com/rhymes-ai/Allegro