智谱AI का नवीनतम ओपन-सोर्स टेक्स्ट-टू-इमेज मॉडल CogView4 आधिकारिक तौर पर लॉन्च हो गया है। CogView4 न केवल 60 करोड़ पैरामीटर तक पहुँच गया है, बल्कि यह चीनी इनपुट और चीनी टेक्स्ट से इमेज जनरेशन का भी पूरी तरह से समर्थन करता है, जिसे "पहला ओपन-सोर्स मॉडल जो चित्र में चीनी वर्ण उत्पन्न कर सकता है" कहा जाता है।
CogView4 की मुख्य विशेषता यह है कि यह चीनी और अंग्रेजी दोनों भाषाओं में प्रॉम्प्ट इनपुट का समर्थन करता है, खासकर जटिल चीनी निर्देशों को समझने और उनका पालन करने में कुशल है, जो चीनी सामग्री रचनाकारों के लिए एक वरदान है। चित्रों में चीनी वर्ण उत्पन्न करने वाला पहला ओपन-सोर्स टेक्स्ट-टू-इमेज मॉडल होने के नाते, इसने ओपन-सोर्स क्षेत्र में एक बड़ी खामी को पूरा किया है। इसके अलावा, यह मॉडल किसी भी चौड़ाई और ऊँचाई के चित्र उत्पन्न कर सकता है और किसी भी लंबाई के प्रॉम्प्ट इनपुट को संभाल सकता है, जो इसकी अत्यधिक लचीलापन को दर्शाता है।
CogView4 की द्विभाषी क्षमता तकनीकी आर्किटेक्चर के व्यापक उन्नयन के कारण है। इसके टेक्स्ट एन्कोडर को GLM-4 में अपग्रेड किया गया है, जो चीनी और अंग्रेजी दोनों भाषाओं के इनपुट का समर्थन करता है, जिससे पहले के ओपन-सोर्स मॉडल की अंग्रेजी भाषा तक सीमित रहने की बाधा को पूरी तरह से तोड़ दिया गया है। बताया गया है कि इस मॉडल को चीनी और अंग्रेजी द्विभाषी चित्र-पाठ जोड़ियों का उपयोग करके प्रशिक्षित किया गया है, ताकि चीनी संदर्भ में इसकी उत्पन्न सामग्री की गुणवत्ता सुनिश्चित की जा सके।
टेक्स्ट प्रोसेसिंग में, CogView4 ने पारंपरिक निश्चित लंबाई के डिज़ाइन को त्याग दिया है और गतिशील टेक्स्ट लंबाई योजना को अपनाया है। जब औसत वर्णन टेक्स्ट 200-300 टोकन होता है, तो पारंपरिक 512 टोकन योजना की तुलना में, अतिरेक लगभग 50% कम हो जाता है, और प्रशिक्षण दक्षता 5%-30% बढ़ जाती है। इस नवाचार ने न केवल कम्प्यूटेशनल संसाधनों का अनुकूलन किया है, बल्कि मॉडल को अलग-अलग लंबाई के प्रॉम्प्ट को अधिक कुशलतापूर्वक संभालने की भी अनुमति दी है।
CogView4 किसी भी रिज़ॉल्यूशन के चित्र उत्पन्न करने का समर्थन करता है, जिसके पीछे कई तकनीकी सफलताएँ हैं। मॉडल मिश्रित रिज़ॉल्यूशन प्रशिक्षण का उपयोग करता है, जिसमें द्वि-आयामी घूर्णन स्थिति एन्कोडिंग और अंतःक्षेप स्थिति प्रतिनिधित्व शामिल है, जो विभिन्न आकारों की आवश्यकताओं के अनुकूल है। इसके अलावा, यह फ़्लो-मिलान डिफ़्यूज़न मॉडल और पैरामीट्रिक रैखिक गतिशील शोर नियोजन पर आधारित है, जो उत्पन्न चित्रों की गुणवत्ता और विविधता को और बढ़ाता है।
CogView4 की प्रशिक्षण प्रक्रिया कई चरणों में विभाजित है: मूल रिज़ॉल्यूशन प्रशिक्षण से शुरू होकर, व्यापक रिज़ॉल्यूशन अनुकूलन, उच्च-गुणवत्ता डेटा फ़ाइन-ट्यूनिंग तक, और अंत में मानव वरीयता संरेखण के माध्यम से आउटपुट को अनुकूलित किया जाता है। इस प्रक्रिया में Share-param DiT आर्किटेक्चर को बरकरार रखा गया है, साथ ही विभिन्न मोड के लिए स्वतंत्र अनुकूली परत सामान्यीकरण भी पेश किया गया है, ताकि विभिन्न कार्यों में मॉडल की स्थिरता और स्थिरता सुनिश्चित की जा सके।
प्रोजेक्ट:https://github.com/THUDM/CogView4