智谱AI का नवीनतम ओपन-सोर्स टेक्स्ट-टू-इमेज मॉडल CogView4 आधिकारिक तौर पर लॉन्च हो गया है। CogView4 न केवल 60 करोड़ पैरामीटर तक पहुँच गया है, बल्कि यह चीनी इनपुट और चीनी टेक्स्ट से इमेज जनरेशन का भी पूरी तरह से समर्थन करता है, जिसे "पहला ओपन-सोर्स मॉडल जो चित्र में चीनी वर्ण उत्पन्न कर सकता है" कहा जाता है।

QQ_1741067026688.png

CogView4 की मुख्य विशेषता यह है कि यह चीनी और अंग्रेजी दोनों भाषाओं में प्रॉम्प्ट इनपुट का समर्थन करता है, खासकर जटिल चीनी निर्देशों को समझने और उनका पालन करने में कुशल है, जो चीनी सामग्री रचनाकारों के लिए एक वरदान है। चित्रों में चीनी वर्ण उत्पन्न करने वाला पहला ओपन-सोर्स टेक्स्ट-टू-इमेज मॉडल होने के नाते, इसने ओपन-सोर्स क्षेत्र में एक बड़ी खामी को पूरा किया है। इसके अलावा, यह मॉडल किसी भी चौड़ाई और ऊँचाई के चित्र उत्पन्न कर सकता है और किसी भी लंबाई के प्रॉम्प्ट इनपुट को संभाल सकता है, जो इसकी अत्यधिक लचीलापन को दर्शाता है।

CogView4 की द्विभाषी क्षमता तकनीकी आर्किटेक्चर के व्यापक उन्नयन के कारण है। इसके टेक्स्ट एन्कोडर को GLM-4 में अपग्रेड किया गया है, जो चीनी और अंग्रेजी दोनों भाषाओं के इनपुट का समर्थन करता है, जिससे पहले के ओपन-सोर्स मॉडल की अंग्रेजी भाषा तक सीमित रहने की बाधा को पूरी तरह से तोड़ दिया गया है। बताया गया है कि इस मॉडल को चीनी और अंग्रेजी द्विभाषी चित्र-पाठ जोड़ियों का उपयोग करके प्रशिक्षित किया गया है, ताकि चीनी संदर्भ में इसकी उत्पन्न सामग्री की गुणवत्ता सुनिश्चित की जा सके।

टेक्स्ट प्रोसेसिंग में, CogView4 ने पारंपरिक निश्चित लंबाई के डिज़ाइन को त्याग दिया है और गतिशील टेक्स्ट लंबाई योजना को अपनाया है। जब औसत वर्णन टेक्स्ट 200-300 टोकन होता है, तो पारंपरिक 512 टोकन योजना की तुलना में, अतिरेक लगभग 50% कम हो जाता है, और प्रशिक्षण दक्षता 5%-30% बढ़ जाती है। इस नवाचार ने न केवल कम्प्यूटेशनल संसाधनों का अनुकूलन किया है, बल्कि मॉडल को अलग-अलग लंबाई के प्रॉम्प्ट को अधिक कुशलतापूर्वक संभालने की भी अनुमति दी है।

CogView4 किसी भी रिज़ॉल्यूशन के चित्र उत्पन्न करने का समर्थन करता है, जिसके पीछे कई तकनीकी सफलताएँ हैं। मॉडल मिश्रित रिज़ॉल्यूशन प्रशिक्षण का उपयोग करता है, जिसमें द्वि-आयामी घूर्णन स्थिति एन्कोडिंग और अंतःक्षेप स्थिति प्रतिनिधित्व शामिल है, जो विभिन्न आकारों की आवश्यकताओं के अनुकूल है। इसके अलावा, यह फ़्लो-मिलान डिफ़्यूज़न मॉडल और पैरामीट्रिक रैखिक गतिशील शोर नियोजन पर आधारित है, जो उत्पन्न चित्रों की गुणवत्ता और विविधता को और बढ़ाता है।

QQ_1741067051506.png

CogView4 की प्रशिक्षण प्रक्रिया कई चरणों में विभाजित है: मूल रिज़ॉल्यूशन प्रशिक्षण से शुरू होकर, व्यापक रिज़ॉल्यूशन अनुकूलन, उच्च-गुणवत्ता डेटा फ़ाइन-ट्यूनिंग तक, और अंत में मानव वरीयता संरेखण के माध्यम से आउटपुट को अनुकूलित किया जाता है। इस प्रक्रिया में Share-param DiT आर्किटेक्चर को बरकरार रखा गया है, साथ ही विभिन्न मोड के लिए स्वतंत्र अनुकूली परत सामान्यीकरण भी पेश किया गया है, ताकि विभिन्न कार्यों में मॉडल की स्थिरता और स्थिरता सुनिश्चित की जा सके।

प्रोजेक्ट:https://github.com/THUDM/CogView4