Tencent Hunyuan DiT Launched 6G Small Memory Version, Hunyuan Captioner Officially Open Sourced

腾讯 का हन्युआन टेक्स्ट-टू-इमेज मॉडल (हन्युआन DiT) हाल ही में अपडेट किया गया है, जिसमें 6GB वीडियो मेमोरी संस्करण का मॉडल जारी किया गया है, जिससे व्यक्तिगत कंप्यूटर उपयोगकर्ता भी आसानी से इसका उपयोग कर सकें। यह संस्करण LoRA, ControlNet जैसे प्लगइन्स के साथ Diffusers लाइब्रेरी के लिए अनुकूलित किया गया है, और इसमें कोह्या ग्राफिकल इंटरफेस के लिए समर्थन जोड़ा गया है, जिससे डेवलपर्स के लिए व्यक्तिगत LoRA मॉडल को प्रशिक्षित करना आसान हो गया है। हन्युआन DiT मॉडल को 1.2 संस्करण में अपडेट किया गया है, जिससे चित्र की गुणवत्ता और रचना में सुधार हुआ है।

साथ ही, Tencent ने हन्युआन टेक्स्ट-टू-इमेज लेबलिंग मॉडल "हन्युआन कैप्शनर" को ओपन-सोर्स किया है, जो चीनी और अंग्रेजी दोनों भाषाओं का समर्थन करता है और टेक्स्ट-टू-इमेज परिदृश्यों के लिए अनुकूलित है, जिससे यह चीनी अर्थ को अधिक सटीकता से समझता है और संरचित, पूर्ण और सटीक चित्र विवरण उत्पन्न करता है। यह प्रसिद्ध व्यक्तियों और स्थलों की पहचान भी कर सकता है और डेवलपर्स को व्यक्तिगत पृष्ठभूमि ज्ञान को जोड़ने की अनुमति देता है।

微信截图_20240705081554.png

इसके अलावा, हन्युआन कैप्शनर मॉडल के ओपन-सोर्स होने से वैश्विक टेक्स्ट-टू-इमेज शोधकर्ताओं और डेटा एनोटेटर्स को चित्र विवरण की गुणवत्ता में सुधार करने, अधिक व्यापक और सटीक चित्र विवरण उत्पन्न करने और मॉडल के प्रदर्शन को बढ़ाने में मदद मिलती है। उत्पन्न डेटा सेट न केवल हन्युआन DiT आधारित मॉडल के प्रशिक्षण के लिए उपयोग किया जा सकता है, बल्कि अन्य दृश्य मॉडल के प्रशिक्षण के लिए भी उपयुक्त है।

हन्युआन DiT मॉडल के तीन प्रमुख अपडेट में छोटे वीडियो मेमोरी संस्करण का लॉन्च, कोह्या प्रशिक्षण इंटरफेस का समावेश और मॉडल का 1.2 संस्करण में अपग्रेड शामिल हैं, जो उपयोग की बाधाओं को और कम करते हैं और चित्र की गुणवत्ता में सुधार करते हैं। हन्युआन DiT मॉडल द्वारा उत्पन्न चित्रों की गुणवत्ता बेहतर है, लेकिन पहले उच्च वीडियो मेमोरी की आवश्यकता ने कई डेवलपर्स को हतोत्साहित कर दिया था। अब, हन्युआन DiT ने छोटे वीडियो मेमोरी संस्करण को लॉन्च किया है, जो केवल 6GB वीडियो मेमोरी पर चल सकता है, और हगिंग फेस के साथ सहयोग के बाद, छोटे वीडियो मेमोरी संस्करण और संबंधित प्लगइन्स को Diffusers लाइब्रेरी में अनुकूलित किया गया है, जिससे उपयोग की लागत को सरल बनाया गया है।

कोह्या एक ओपन-सोर्स हल्का मॉडल फाइन-ट्यूनिंग प्रशिक्षण सेवा है, जो एक ग्राफिकल इंटरफेस प्रदान करती है और इसे विसरण मॉडल के प्रकार के टेक्स्ट-टू-इमेज मॉडल के प्रशिक्षण के लिए व्यापक रूप से उपयोग किया जाता है। उपयोगकर्ता कोह्या के माध्यम से बिना कोड लिखे मॉडल की पूर्ण पैरामीटर ट्यूनिंग और LoRA प्रशिक्षण पूरा कर सकते हैं।

हन्युआन कैप्शनर मॉडल संरचित चित्र विवरण प्रणाली का निर्माण करके और विभिन्न स्रोतों के माध्यम से विवरण की पूर्णता को बढ़ाकर, बहुत सारा पृष्ठभूमि ज्ञान इंजेक्ट करता है, जिससे आउटपुट विवरण अधिक सटीक और पूर्ण हो जाता है। ये अनुकूलन हन्युआन DiT को सबसे लोकप्रिय घरेलू DiT ओपन-सोर्स मॉडल में से एक बनाते हैं, जिसका Github Star संख्या 2.6k से अधिक हो गई है।

वेबसाइट

https://dit.hunyuan.tencent.com/

कोड

https://github.com/Tencent/HunyuanDiT

मॉडल

https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

पेपर

https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

AI समाचार

Tencent Hunyuan DiT Launched 6G Small Memory Version, Hunyuan Captioner Officially Open Sourced

AIbase

संबंधित AI समाचार अनुशंसाएँ

वीडियो प्रशिक्षण LoRA आ गया है! Ostris ने 20 तस्वीरों से आश्चर्यजनक Wan 2.1 LoRA बनाया

बाइटडांस ने एआईब्रिक्स लॉन्च किया: बड़े भाषा मॉडल के लिए डिज़ाइन किया गया एक नया ओपन-सोर्स इन्फ्रेंस सिस्टम

नया एआई मॉडल Transformer²: ऑक्टोपस की तरह लचीला, गतिशील रूप से वजन समायोजित करना, पर्यावरण के अनुकूल होना

धमाकेदार आगमन! Stability AI का SD3.5L नई तीन ControlNet सुविधाएँ के साथ, छवि निर्माण क्षमता में और वृद्धि