जिपु तकनीकी टीम ने आज एक उत्साहजनक समाचार जारी किया है कि उनके नवीनतम विकसित टेक्स्ट-टू-इमेज मॉडल CogView3 और इसके उन्नत संस्करण CogView3-Plus-3B अब आधिकारिक रूप से ओपन-सोर्स हो गए हैं, और "जिपु क्लींग्यान" ऐप में सफलतापूर्वक लॉन्च हो गए हैं। इन दोनों मॉडलों का आगमन एआई-सहायता वाली कला रचना के लिए एक नए चरण की शुरुआत का प्रतीक है।
CogView3 एक टेक्स्ट-टू-इमेज मॉडल है जो कैस्केडिंग डिफ्यूजन पर आधारित है, और इसकी उत्पादन प्रक्रिया अत्यंत कुशल है। मॉडल पहले 512x512 पिक्सेल के निम्न रिज़ॉल्यूशन इमेज का निर्माण करता है, फिर एक मध्यवर्ती डिफ्यूजन प्रक्रिया के माध्यम से इसे 1024x1024 पर बढ़ाता है, और अंततः इसे फिर से पुनरावृत्ति करके 2048x2048 के उच्च-रिज़ॉल्यूशन इमेज में प्रस्तुत करता है। इस चरणबद्ध निर्माण प्रक्रिया को डिजिटल चित्रकार के कैनवास पर अपने काम को क्रमिक रूप से पूर्ण करने के समान माना जा सकता है, जो उपयोगकर्ताओं को अत्यधिक दृश्य अनुभव प्रदान करता है।
आधिकारिक आकलन के अनुसार, CogView3 का प्रदर्शन अद्भुत है, इसकी क्षमता वर्तमान में शीर्ष ओपन-सोर्स टेक्स्ट-टू-इमेज मॉडल SDXL से 77% बेहतर है। और यह भी उल्लेखनीय है कि CogView3 की अनुमानित गति केवल SDXL की एक-तिहाई है, जो जिपु टीम की मॉडल अनुकूलन में उत्कृष्टता को पूरी तरह से दर्शाता है।
CogView3-Plus का लॉन्च इस तकनीक को एक नई ऊंचाई पर ले गया है। इस संस्करण में उन्नत DiT ढांचा शामिल है, जो Zero-SNR डिफ्यूजन शोर शेड्यूल का उपयोग करता है, और अभिनव रूप से टेक्स्ट-इमेज संयुक्त ध्यान तंत्र को जोड़ा गया है। ये सुधार न केवल मॉडल के समग्र प्रदर्शन को बढ़ाते हैं, बल्कि प्रशिक्षण और अनुमान लागत को भी काफी कम करते हैं, जिससे दक्षता और प्रभावशीलता का एक आदर्श संतुलन स्थापित होता है। CogView3-Plus द्वारा उपयोग किया गया 16-आयामी VAE संभाव्य स्थान भविष्य के इमेज निर्माण तकनीक के विकास के लिए नए संभावनाओं का मार्ग प्रशस्त करता है।
जो डेवलपर्स और शोधकर्ता इस अग्रणी तकनीक का अन्वेषण करना चाहते हैं, उनके लिए जिपु तकनीकी टीम ने CogView3 और CogView3-Plus-3B के स्रोत कोड भंडार को खोल दिया है। यह कदम निश्चित रूप से पूरे एआई इमेज निर्माण क्षेत्र के त्वरित विकास को बढ़ावा देगा, और अधिक नवाचार अनुप्रयोगों के लिए एक मजबूत तकनीकी आधार प्रदान करेगा।
CogView3 श्रृंखला मॉडल के आगमन के साथ, टेक्स्ट-टू-इमेज तकनीक के अनुप्रयोग की संभावनाएं और भी विस्तृत हो गई हैं। व्यक्तिगत रचनाओं से लेकर व्यावसायिक डिज़ाइन, शैक्षिक सहायता से लेकर मनोरंजन उद्योग तक, यह तकनीक क्रांतिकारी बदलाव लाने की उम्मीद कर रही है। हम देख सकते हैं कि निकट भविष्य में, एआई-सहायता वाली रचना सामान्य बन जाएगी, जिससे अधिक लोग अपनी कला की कल्पनाओं को आसानी से साकार कर सकेंगे।
ओपन-सोर्स भंडार का पता:
https://top.aibase.com/tool/cogview3
प्लस ओपन-सोर्स मॉडल भंडार: