क्या आप चीनी भाषा को समझने वाले ओपन-सोर्स इमेज मॉडल की तलाश में हैं? अब, आप अंग्रेजी प्रॉम्प्ट के "बंधन" से पूरी तरह से मुक्त हो सकते हैं! घरेलू AI दिग्गज Zhipu AI ने एक नया टेक्स्ट-टू-इमेज मॉडल CogView4 लॉन्च किया है, जिससे चीनी भाषा में चित्र निर्माण तकनीक को एक नई ऊंचाई पर पहुँचाया गया है! अब, डिजाइनर, कंटेंट क्रिएटर, और यहां तक कि AI पेंटिंग में रुचि रखने वाले "नौसिखिए" भी अपनी मातृभाषा का उपयोग करके AI इमेज जेनरेशन का आनंद ले सकते हैं!
CogView4 की सबसे बड़ी खासियत इसकी चीनी भाषा की "अद्भुत समझ" है! अब आपको चीनी प्रॉम्प्ट को अंग्रेजी में अनुवाद करने के लिए अनुवाद सॉफ़्टवेयर का उपयोग करने की ज़रूरत नहीं है, आप सीधे सबसे सरल चीनी "निर्देशों" का उपयोग करके CogView4 को अपनी "चित्रकारी" समझा सकते हैं और अपनी इच्छानुसार चित्र बना सकते हैं! और भी आश्चर्यजनक बात यह है कि यह पहला ओपन-सोर्स मॉडल है जो सीधे चित्र में चीनी अक्षर "लिख" सकता है! यह चीनी उपयोगकर्ताओं के लिए एकदम सही "जादुई पेंसिल" है, जो आपकी रचनात्मक अभिव्यक्ति को और अधिक "प्रामाणिक" बनाता है, और आपको चित्रों में पाठ के "अनुकूलन" की चिंता करने की ज़रूरत नहीं है!
और भी बेहतर बात यह है कि CogView4 ने चित्र के आकार और प्रॉम्प्ट की लंबाई की सीमा को पूरी तरह से हटा दिया है! क्या आप एक विशाल वाइडस्क्रीन पोस्टर बनाना चाहते हैं? कोई बात नहीं! क्या आप जटिल दृश्यों का वर्णन करने के लिए एक लंबा प्रॉम्प्ट देना चाहते हैं? बेझिझक लिखें! CogView4 आसानी से सब कुछ संभाल सकता है और आपकी सभी "असीमित" रचनात्मक आवश्यकताओं को पूरा कर सकता है, ताकि आपकी कल्पना को "सीमाओं" से बंधा न रखा जाए!
साथ ही, CogView4 केवल "शोपीस" नहीं है, बल्कि यह DPG-Bench बेंचमार्क परीक्षण में शीर्ष पर रहा है और समग्र स्कोर में पहले स्थान पर है, जिससे इसकी क्षमता स्पष्ट होती है! इसका मतलब है कि CogView4 न केवल "उपयोग में आसान" है, बल्कि "शक्तिशाली" भी है, और चित्र निर्माण की गुणवत्ता में भी यह बेहतरीन है, जो चित्र की गुणवत्ता के बारे में आपकी "कठोर" आवश्यकताओं को पूरा कर सकता है!
CogView4 को अधिक डेवलपर्स और उपयोगकर्ताओं द्वारा "उपयोग" में लाने के लिए, Zhipu AI ने यह भी कहा है कि भविष्य में ControlNet, ComfyUI समर्थन और मॉडल फ़ाइन-ट्यूनिंग टूल को भी ओपन-सोर्स किया जाएगा, जो कि "पूर्ण मार्शल आर्ट्स मैनुअल" प्रदान करने जैसा है! इसका मतलब है कि आप न केवल CogView4 के शक्तिशाली कार्यों का "सीधे उपयोग" कर सकते हैं, बल्कि अपनी आवश्यकताओं के अनुसार "गहन अनुकूलन" भी कर सकते हैं, ताकि अधिक व्यक्तिगत और शक्तिशाली चित्र निर्माण मॉडल बनाया जा सके!
तो, CogView4 ने अपनी "शक्ति" कैसे विकसित की? संक्षेप में, इसने निम्नलिखित पहलुओं में "तकनीकी उन्नयन" किया है:
द्विभाषी क्षमता में "बड़ी छलांग": CogView4 का "मस्तिष्क" और अधिक शक्तिशाली GLM-4 एन्कोडर में अपग्रेड किया गया है, जो चीनी और अंग्रेजी दोनों को "समझ" सकता है! इसने बड़ी मात्रा में चीनी और अंग्रेजी द्विभाषी ग्राफिक डेटा का "अध्ययन" किया है, और पिछले चीनी मॉडल की "अंग्रेजी में कमजोरी" की समस्या को पूरी तरह से दूर किया है, और वास्तव में "चीनी और अंग्रेजी द्विभाषी, स्वतंत्र स्विचिंग" प्राप्त किया है!
पाठ प्रसंस्करण अधिक "स्मार्ट": CogView4 ने "गतिशील पाठ लंबाई" तकनीक को अपनाया है, जो एक "स्मार्ट दर्जी" की तरह है, जो प्रॉम्प्ट की लंबाई के अनुसार "कपड़े काट" सकता है, पारंपरिक निश्चित लंबाई योजना की "बर्बादी" और "अनावश्यकता" से बचा जाता है, और दक्षता सीधे 5%-30% तक बढ़ जाती है! इसका मतलब है कि CogView4 न केवल प्रॉम्प्ट को अधिक सटीक रूप से समझता है, बल्कि इसकी पीढ़ी की गति भी तेज है!
रिज़ॉल्यूशन पीढ़ी अधिक "लचीली": CogView4 ने "मिश्रित रिज़ॉल्यूशन प्रशिक्षण" और "द्वि-आयामी घूर्णन स्थिति एन्कोडिंग" जैसी "उन्नत तकनीकों" को अपनाया है, जिससे यह विभिन्न आकारों के चित्रों की पीढ़ी को "नियंत्रित" कर सकता है, चाहे वह "उच्च-रिज़ॉल्यूशन बड़ी तस्वीरें" हों या "छोटी और उत्तम तस्वीरें", वह सब आसानी से संभाल सकता है! इसने फ्लो-मैचिंग डिफ्यूजन मॉडल और पैरामीट्रिक लीनियर डायनामिक नॉइज़ प्लानिंग को भी अपनाया है, जिससे इमेज जेनरेशन प्रक्रिया अधिक "चिकनी" और "नियंत्रित" हो जाती है!
प्रशिक्षण प्रक्रिया अधिक "परिष्कृत": CogView4 की प्रशिक्षण प्रक्रिया को "बेहद परिष्कृत" माना जाता है, जिसने "बहु-चरण प्रशिक्षण" और "मानव प्राथमिकता संरेखण" जैसे "परिष्कृत" चरणों से गुजरा है, मूल रिज़ॉल्यूशन से लेकर सामान्य रिज़ॉल्यूशन तक, और फिर उच्च-गुणवत्ता वाले डेटा फ़ाइन-ट्यूनिंग तक, प्रत्येक चरण "बेहद सटीक" होने का प्रयास करता है! इसने शेयर-पैराम DiT आर्किटेक्चर को भी बरकरार रखा है, और विभिन्न मोड के लिए स्वतंत्र अनुकूली परत सामान्यीकरण का उपयोग किया है, जिससे मॉडल और अधिक "शक्तिशाली" और "कुशल" बन गया है!
प्रोजेक्ट पता:https://github.com/THUDM/CogView4