हाल ही में, Zhipu AI ने जनता के लिए अपने नवीनतम कार्य - CogView3 और इसके उन्नत संस्करण CogView-3Plus-3B को ओपन-सोर्स किया है, जिसने टेक्स्ट-टू-इमेज क्षेत्र में नई जान फूंक दी है।
CogView3 का अनावरण निश्चित रूप से एक महत्वपूर्ण मील का पत्थर है। यह टेक्स्ट से इमेज जेनरेशन क्षेत्र में मध्यवर्ती प्रसार को लागू करने वाला पहला मॉडल है, जो अद्वितीय कैस्केडिंग प्रसार विधि का उपयोग करता है। यह अभिनव दृष्टिकोण पहले निम्न रिज़ॉल्यूशन छवियों का निर्माण करता है, फिर मध्यवर्ती आधारित सुपर-रिज़ॉल्यूशन तकनीक के माध्यम से अंतिम आउटपुट को पूरा करता है। इसने न केवल उत्पन्न छवियों की गुणवत्ता को काफी बढ़ा दिया है, बल्कि प्रशिक्षण और अनुमान लागत को भी काफी कम कर दिया है।
सबसे ध्यान आकर्षित करने वाली बात यह है कि CogView3 का प्रदर्शन। मानव मूल्यांकन परिणामों के अनुसार, CogView3 ने वर्तमान में सबसे उन्नत ओपन-सोर्स टेक्स्ट-टू-इमेज मॉडल SDXL को जनरेटिव गुणवत्ता में पीछे छोड़ दिया है, जिसमें जीत दर 77.0% है। और भी आश्चर्यजनक बात यह है कि इस उपलब्धि को प्राप्त करने के लिए इसे SDXL के लगभग आधे अनुमानित समय की आवश्यकता थी। यदि CogView3 के संक्षिप्त संस्करण का उपयोग किया जाए, तो यह SDXL के दसवें हिस्से के अनुमानित समय में भी तुलनीय प्रदर्शन स्तर बनाए रख सकता है। यह क्रांतिकारी प्रगति निश्चित रूप से उच्च दक्षता और उच्च गुणवत्ता वाली छवि उत्पादन के लिए नए संभावनाओं के द्वार खोलती है।
इस बीच, Zhipu AI ने CogView-3Plus-3B भी लॉन्च किया है, जो DiT (Diffusion Transformers) ढांचे पर आधारित एक छवि मॉडल है। हालांकि इसके विशिष्ट परीक्षण परिणाम अभी तक प्रकाशित नहीं हुए हैं, लेकिन उद्योग इसके संभावनाओं को लेकर उत्साहित है। CogView-3Plus-3B ने CogView3 के आधार पर आगे के अनुकूलन किए हैं, जिसमें Zero-SNR प्रसार शोर अनुसूची और संयुक्त टेक्स्ट-इमेज ध्यान तंत्र जैसी उन्नत तकनीकों को शामिल किया गया है। इन सुधारों ने न केवल प्रशिक्षण और अनुमान लागत को कम किया है, बल्कि शक्तिशाली छवि उत्पादन क्षमता को भी बनाए रखा है।
यह उल्लेखनीय है कि CogView-3Plus-3B द्वारा समर्थित छवि रिज़ॉल्यूशन रेंज बहुत व्यापक है, जो 512x512 से लेकर 2048x2048 तक है, जिससे इसके अनुप्रयोग परिदृश्यों की लचीलापन बढ़ गई है। चाहे दैनिक उपयोग हो या पेशेवर रचनात्मकता, हर किसी के लिए उपयुक्त रिज़ॉल्यूशन विकल्प मिल सकते हैं।
उपयोगकर्ताओं को इन मॉडलों का बेहतर उपयोग करने में मदद करने के लिए, Zhipu AI उपयोगी सुझाव और उपकरण भी प्रदान करता है। वे उपयोगकर्ताओं को बड़े भाषा मॉडल (LLM) के माध्यम से संकेत शब्दों का अनुकूलन करने की सलाह देते हैं, जो उत्पन्न छवियों की गुणवत्ता को काफी बढ़ा सकता है। साथ ही, Zhipu AI ने उदाहरण स्क्रिप्ट भी प्रदान की है, जिससे उपयोगकर्ताओं के लिए उपयोग की बाधाओं को काफी कम किया जा सके।
प्रोजेक्ट का पता: https://github.com/THUDM/CogView3