बीजिंग टूसन फ्यूचर टेक्नोलॉजी कं., लिमिटेड ने 2024 के 17 दिसंबर को अपना पहला "टूशेंग वीडियो" बड़ा मॉडल - "रुयी" का आधिकारिक रूप से लॉन्च किया, और रुयी-मिनी-7B संस्करण को ओपन-सोर्स कर दिया ताकि उपयोगकर्ता इसे huggingface प्लेटफॉर्म से डाउनलोड कर सकें। टूसन फ्यूचर की स्थापना 2015 में हुई थी, और इसका मुख्यालय अमेरिका के कैलिफोर्निया राज्य के सैन डिएगो में है, जो एआई तकनीक के विभिन्न उद्योगों में अनुप्रयोगों पर केंद्रित है, जिसमें एनीमेशन गेम और परिवहन उद्योग शामिल हैं।

रुयी बड़ा मॉडल उपभोक्ता ग्रेड ग्राफिक्स कार्ड पर चलाने के लिए डिज़ाइन किया गया है, जो विस्तृत तैनाती निर्देश और ComfyUI वर्कफ़्लो प्रदान करता है ताकि उपयोगकर्ता जल्दी से शुरुआत कर सकें। इस मॉडल ने फ्रेम के बीच की स्थिरता, गति की तरलता, रंग प्रस्तुति और संरचना के क्षेत्र में उत्कृष्ट प्रदर्शन के कारण दृश्य कहानी कहने के लिए नए संभावनाएं प्रदान की हैं, और एनीमे और गेम दृश्य के लिए गहन शिक्षण पर ध्यान केंद्रित किया है, जिससे यह ACG प्रेमियों के लिए एक आदर्श रचनात्मक साथी बन गया है।

微信截图_20241217140324.png

रुयी मॉडल कई रिज़ॉल्यूशन और समय अवधि की पीढ़ी का समर्थन करता है, जो 384×384 से 1024×1024 तक के रिज़ॉल्यूशन को संभाल सकता है, किसी भी आस्पेक्ट रेशियो में, और अधिकतम 120 फ्रेम/5 सेकंड वीडियो जनरेशन कर सकता है। यह प्रारंभिक फ्रेम, प्रारंभिक और अंतिम फ्रेम नियंत्रण, गति सीमा नियंत्रण, और पांच प्रकार के शॉट नियंत्रण का भी समर्थन करता है। रुयी DiT आर्किटेक्चर पर आधारित है, जिसमें Casual VAE मॉड्यूल और डिफ्यूज़न ट्रांसफार्मर शामिल हैं, और इसका कुल पैरामीटर लगभग 7.1B है, जिसे लगभग 200M वीडियो क्लिप का उपयोग करके प्रशिक्षित किया गया है।

हालांकि रुयी ने तकनीकी रूप से महत्वपूर्ण प्रगति की है, लेकिन कुछ कमियां भी हैं, जैसे हाथों का विकृति, कई लोगों के चेहरे की विवरण की बर्बादी, अनियंत्रित ट्रांजिशन आदि समस्याएं, टूसन फ्यूचर इन समस्याओं को सुधारने और भविष्य के अपडेट में इन्हें ठीक करने के लिए काम कर रहा है।

भविष्य की ओर देखते हुए, टूसन फ्यूचर ने दृश्य आवश्यकताओं में निरंतर गहराई से काम करने की योजना बनाई है, CUT के सीधे निर्माण में突破 हासिल करने के लिए, और अगले लॉन्च में दो संस्करण प्रदान करने की योजना बनाई है, ताकि विभिन्न रचनाकारों की आवश्यकताओं को पूरा किया जा सके। कंपनी बड़े मॉडल का उपयोग करके एनीमेशन और गेम सामग्री के विकास के चक्र और लागत को कम करने के लिए प्रतिबद्ध है, रुयी बड़ा मॉडल पहले से ही 5 सेकंड की सामग्री उत्पन्न करने के लिए प्रमुख फ्रेम इनपुट करने में सक्षम है, या दो प्रमुख फ्रेम इनपुट करके मॉडल से मध्य संक्रमण सामग्री उत्पन्न करने में सक्षम है, जिससे विकास चक्र कम होता है।

Hugging Face लिंक :

https://huggingface.co/IamCreateAI/Ruyi-Mini-7B