4 मार्च, 2025 को, बीजिंग झिपु हुआझांग टेक्नोलॉजी कंपनी लिमिटेड ने पहला ओपन-सोर्स टेक्स्ट-टू-इमेज मॉडल, CogView4 लॉन्च करने की घोषणा की, जो चीनी वर्णों को उत्पन्न करने में सक्षम है। यह मॉडल DPG-Bench बेंचमार्क टेस्ट में शीर्ष रैंक पर रहा है, जो इसे ओपन-सोर्स टेक्स्ट-टू-इमेज मॉडल में सबसे उन्नत (SOTA) बनाता है। यह Apache2.0 लाइसेंस के तहत जारी किया गया है, जो इसे इस लाइसेंस के तहत जारी किया गया पहला इमेज जनरेशन मॉडल बनाता है।
CogView4 में शक्तिशाली जटिल अर्थ संरेखण और निर्देश अनुपालन क्षमता है, जो मनमाने ढंग से लंबे चीनी और अंग्रेजी द्विभाषी इनपुट का समर्थन करता है और मनमाने रिज़ॉल्यूशन के चित्र उत्पन्न कर सकता है। यह न केवल उच्च-गुणवत्ता वाले चित्र उत्पन्न कर सकता है, बल्कि चित्रों में प्राकृतिक रूप से चीनी वर्णों को भी एकीकृत कर सकता है, जिससे विज्ञापन, लघु वीडियो आदि क्षेत्रों में रचनात्मक आवश्यकताओं को पूरा किया जा सकता है। तकनीकी रूप से, CogView4 द्विभाषी क्षमता वाले GLM-4 एन्कोडर का उपयोग करता है, जो चीनी और अंग्रेजी द्विभाषी छवि-पाठ प्रशिक्षण के माध्यम से द्विभाषी प्रॉम्प्ट इनपुट क्षमता प्राप्त करता है।
यह मॉडल मनमाने ढंग से लंबे प्रॉम्प्ट इनपुट का समर्थन करता है और मनमाने रिज़ॉल्यूशन के चित्र उत्पन्न कर सकता है, जिससे रचनात्मक स्वतंत्रता और प्रशिक्षण दक्षता में काफी वृद्धि हुई है। CogView4 इमेज स्थानिक जानकारी को मॉडलिंग करने के लिए द्वि-आयामी घूर्णन स्थिति एन्कोडिंग (2D RoPE) का उपयोग करता है, और विभिन्न रिज़ॉल्यूशन के चित्रों के उत्पादन का समर्थन करने के लिए अंतःक्षेप स्थिति एन्कोडिंग का उपयोग करता है। इसके अलावा, मॉडल विभिन्न रिज़ॉल्यूशन छवियों की सिग्नल-टू-शोर अनुपात आवश्यकताओं को पूरा करने के लिए, प्रसार उत्पादन मॉडलिंग के लिए फ्लो-मैचिंग योजना और पैरामीट्रिक रैखिक गतिशील शोर योजना का उपयोग करता है।
आर्किटेक्चर डिज़ाइन के संदर्भ में, CogView4 पिछली पीढ़ी के शेयर-पैरामीटर DiT आर्किटेक्चर को जारी रखता है, और पाठ और छवि मोड के लिए अलग-अलग अनुकूली LayerNorm परतों को डिज़ाइन करता है ताकि मोड के बीच कुशल अनुकूलन प्राप्त किया जा सके। मॉडल एक बहु-चरण प्रशिक्षण रणनीति का उपयोग करता है, जिसमें बुनियादी रिज़ॉल्यूशन प्रशिक्षण, सामान्य रिज़ॉल्यूशन प्रशिक्षण, उच्च-गुणवत्ता वाले डेटा ठीक-ट्यूनिंग और मानव वरीयता संरेखण प्रशिक्षण शामिल है, यह सुनिश्चित करने के लिए कि उत्पन्न चित्रों में उच्च सौंदर्यशास्त्र है और मानव वरीयताओं के अनुरूप है।
CogView4 पारंपरिक निश्चित टोकन लंबाई की सीमा को भी तोड़ता है, उच्च टोकन सीमा की अनुमति देता है और प्रशिक्षण प्रक्रिया में पाठ टोकन अतिरेक को काफी कम करता है। जब प्रशिक्षण कैप्शन की औसत लंबाई 200-300 टोकन होती है, तो निश्चित 512 टोकन पारंपरिक योजना की तुलना में, CogView4 लगभग 50% टोकन अतिरेक को कम करता है, और मॉडल प्रगतिशील प्रशिक्षण चरण में 5%-30% दक्षता में वृद्धि प्राप्त करता है।
इसके अलावा, CogView4 Apache2.0 लाइसेंस का समर्थन करता है, और बाद में ControlNet, ComfyUI आदि पारिस्थितिकी तंत्र का समर्थन जोड़ा जाएगा, और एक पूर्ण ठीक-ट्यूनिंग टूलकिट भी जल्द ही जारी किया जाएगा।
ओपन-सोर्स रिपॉजिटरी पता:
https://github.com/THUDM/CogView4
मॉडल रिपॉजिटरी:
https://huggingface.co/THUDM/CogView4-6B
https://modelscope.cn/models/ZhipuAI/CogView4-6B