腾讯 का हन्युआन टेक्स्ट-टू-इमेज मॉडल (हन्युआन DiT) हाल ही में अपडेट किया गया है, जिसमें 6GB वीडियो मेमोरी संस्करण का मॉडल जारी किया गया है, जिससे व्यक्तिगत कंप्यूटर उपयोगकर्ता भी आसानी से इसका उपयोग कर सकें। यह संस्करण LoRA, ControlNet जैसे प्लगइन्स के साथ Diffusers लाइब्रेरी के लिए अनुकूलित किया गया है, और इसमें कोह्या ग्राफिकल इंटरफेस के लिए समर्थन जोड़ा गया है, जिससे डेवलपर्स के लिए व्यक्तिगत LoRA मॉडल को प्रशिक्षित करना आसान हो गया है। हन्युआन DiT मॉडल को 1.2 संस्करण में अपडेट किया गया है, जिससे चित्र की गुणवत्ता और रचना में सुधार हुआ है।

साथ ही, Tencent ने हन्युआन टेक्स्ट-टू-इमेज लेबलिंग मॉडल "हन्युआन कैप्शनर" को ओपन-सोर्स किया है, जो चीनी और अंग्रेजी दोनों भाषाओं का समर्थन करता है और टेक्स्ट-टू-इमेज परिदृश्यों के लिए अनुकूलित है, जिससे यह चीनी अर्थ को अधिक सटीकता से समझता है और संरचित, पूर्ण और सटीक चित्र विवरण उत्पन्न करता है। यह प्रसिद्ध व्यक्तियों और स्थलों की पहचान भी कर सकता है और डेवलपर्स को व्यक्तिगत पृष्ठभूमि ज्ञान को जोड़ने की अनुमति देता है।

微信截图_20240705081554.png

इसके अलावा, हन्युआन कैप्शनर मॉडल के ओपन-सोर्स होने से वैश्विक टेक्स्ट-टू-इमेज शोधकर्ताओं और डेटा एनोटेटर्स को चित्र विवरण की गुणवत्ता में सुधार करने, अधिक व्यापक और सटीक चित्र विवरण उत्पन्न करने और मॉडल के प्रदर्शन को बढ़ाने में मदद मिलती है। उत्पन्न डेटा सेट न केवल हन्युआन DiT आधारित मॉडल के प्रशिक्षण के लिए उपयोग किया जा सकता है, बल्कि अन्य दृश्य मॉडल के प्रशिक्षण के लिए भी उपयुक्त है।

हन्युआन DiT मॉडल के तीन प्रमुख अपडेट में छोटे वीडियो मेमोरी संस्करण का लॉन्च, कोह्या प्रशिक्षण इंटरफेस का समावेश और मॉडल का 1.2 संस्करण में अपग्रेड शामिल हैं, जो उपयोग की बाधाओं को और कम करते हैं और चित्र की गुणवत्ता में सुधार करते हैं। हन्युआन DiT मॉडल द्वारा उत्पन्न चित्रों की गुणवत्ता बेहतर है, लेकिन पहले उच्च वीडियो मेमोरी की आवश्यकता ने कई डेवलपर्स को हतोत्साहित कर दिया था। अब, हन्युआन DiT ने छोटे वीडियो मेमोरी संस्करण को लॉन्च किया है, जो केवल 6GB वीडियो मेमोरी पर चल सकता है, और हगिंग फेस के साथ सहयोग के बाद, छोटे वीडियो मेमोरी संस्करण और संबंधित प्लगइन्स को Diffusers लाइब्रेरी में अनुकूलित किया गया है, जिससे उपयोग की लागत को सरल बनाया गया है।

कोह्या एक ओपन-सोर्स हल्का मॉडल फाइन-ट्यूनिंग प्रशिक्षण सेवा है, जो एक ग्राफिकल इंटरफेस प्रदान करती है और इसे विसरण मॉडल के प्रकार के टेक्स्ट-टू-इमेज मॉडल के प्रशिक्षण के लिए व्यापक रूप से उपयोग किया जाता है। उपयोगकर्ता कोह्या के माध्यम से बिना कोड लिखे मॉडल की पूर्ण पैरामीटर ट्यूनिंग और LoRA प्रशिक्षण पूरा कर सकते हैं।

हन्युआन कैप्शनर मॉडल संरचित चित्र विवरण प्रणाली का निर्माण करके और विभिन्न स्रोतों के माध्यम से विवरण की पूर्णता को बढ़ाकर, बहुत सारा पृष्ठभूमि ज्ञान इंजेक्ट करता है, जिससे आउटपुट विवरण अधिक सटीक और पूर्ण हो जाता है। ये अनुकूलन हन्युआन DiT को सबसे लोकप्रिय घरेलू DiT ओपन-सोर्स मॉडल में से एक बनाते हैं, जिसका Github Star संख्या 2.6k से अधिक हो गई है।

वेबसाइट

https://dit.hunyuan.tencent.com/ 

कोड

https://github.com/Tencent/HunyuanDiT

मॉडल

https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

पेपर

https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf