हाल ही में, एक शोध टीम ने Meissonic नामक एक ओपन-सोर्स एआई इमेज जनरेशन मॉडल लॉन्च किया है। आश्चर्य की बात यह है कि इस मॉडल ने केवल एक अरब पैरामीटर का उपयोग किया है, फिर भी यह उच्च गुणवत्ता की छवियाँ उत्पन्न कर सकता है। इस संक्षिप्त डिजाइन ने Meissonic को मोबाइल उपकरणों पर स्थानीयकृत टेक्स्ट-टू-इमेज एप्लिकेशन को लागू करने की क्षमता प्रदान की है।
इस तकनीक के पीछे, विकास टीम में अलीबाबा, Skywork AI और कई विश्वविद्यालयों के शोधकर्ता शामिल हैं। उन्होंने एक अद्वितीय ट्रांसफार्मर आर्किटेक्चर और नवीन प्रशिक्षण विधियों का उपयोग किया है, जिससे Meissonic सामान्य गेम पीसी पर चल सकता है, और भविष्य में मोबाइल पर भी उपयोग किया जा सकता है।
Meissonic की प्रशिक्षण विधि को "मास्किंग इमेज मॉडलिंग" कहा जाता है, सरल शब्दों में, प्रशिक्षण के दौरान छवि के एक हिस्से को छुपाया जाता है। मॉडल यह सीखता है कि दृश्य क्षेत्रों और टेक्स्ट विवरण के आधार पर गायब हिस्से को कैसे पुनर्निर्मित किया जाए। यह विधि मॉडल को छवि तत्वों और टेक्स्ट के बीच के संबंध को समझने में मदद करती है।
Meissonic की आर्किटेक्चर इसे 1024x1024 पिक्सल के उच्च-रिज़ॉल्यूशन छवियाँ उत्पन्न करने में सक्षम बनाती है, चाहे वह यथार्थवादी दृश्य हों या स्टाइलिश टेक्स्ट, इमोजी, या यहां तक कि कार्टून स्टिकर, सभी को आसानी से संभाल सकता है।
पारंपरिक स्व-प्रतिध्वंसक मॉडलों की तुलना में, जो धीरे-धीरे छवियाँ उत्पन्न करते हैं, Meissonic सभी छवि जानकारी को एक साथ पूर्वानुमानित करने के लिए समांतर पुनरावृत्ति अनुकूलन का उपयोग करता है, यह नवाचार डिकोडिंग के चरणों को काफी कम करता है, लगभग 99% समय की कमी करता है, और छवि उत्पन्न करने की गति में काफी सुधार करता है।
मॉडल के निर्माण प्रक्रिया में, शोधकर्ताओं ने चार चरणों का पालन किया:
पहले, उन्होंने 2 करोड़ 256x256 पिक्सल की छवियों का उपयोग करके मॉडल को बुनियादी अवधारणाएँ सिखाईं; फिर, 10 मिलियन चयनित छवि-टेक्स्ट जोड़ों का उपयोग करके इसकी टेक्स्ट समझने की क्षमता को बढ़ाया; इसके बाद, विशेष संकुचन परतें जोड़कर मॉडल को 1024x1024 पिक्सल की छवियाँ उत्पन्न करने में सक्षम बनाया; अंत में, उन्होंने मानव प्राथमिकताओं के डेटा को मिलाकर मॉडल के प्रदर्शन में सुधार किया।
दिलचस्प बात यह है कि, भले ही Meissonic के पैरामीटर की संख्या कम हो, लेकिन यह कई बेंचमार्क परीक्षणों में कुछ बड़े मॉडलों जैसे SDXL और DeepFloyd-XL को पीछे छोड़ने में सफल रहा है, जिसमें "मानव प्राथमिकता स्कोर" पर 28.83 का उच्च स्कोर प्राप्त किया। इसके अलावा, Meissonic बिना अतिरिक्त प्रशिक्षण के छवियों की मरम्मत और विस्तार करने में सक्षम है, जिससे उपयोगकर्ता आसानी से गायब छवि भाग जोड़ सकते हैं या मौजूदा छवियों को रचनात्मक रूप से बढ़ा सकते हैं।
शोध टीम का मानना है कि यह विधि कस्टम एआई इमेज जनरेटर के तेजी से, कम लागत वाले विकास को बढ़ावा दे सकती है, और मोबाइल उपकरणों पर टेक्स्ट-टू-इमेज एप्लिकेशनों के विकास को भी बढ़ावा दे सकती है। इच्छुक लोग Hugging Face पर डेमो संस्करण पा सकते हैं, और GitHub पर मॉडल के कोड को देख सकते हैं, जो सामान्य 8GB वीडियो मेमोरी वाले उपभोक्ता GPU पर आसानी से चलाया जा सकता है।
डेमो: https://huggingface.co/spaces/MeissonFlow/meissonic
प्रोजेक्ट: https://github.com/viiika/Meissonic
महत्वपूर्ण बिंदु:
🌟 Meissonic एक ओपन-सोर्स एआई मॉडल है जो केवल एक अरब पैरामीटर का उपयोग करके उच्च गुणवत्ता की छवियाँ उत्पन्न करता है, जो सामान्य गेम पीसी और भविष्य के मोबाइल उपकरणों के लिए उपयुक्त है।
⚡ समांतर पुनरावृत्ति अनुकूलन की प्रशिक्षण विधि के साथ, Meissonic पारंपरिक मॉडलों की तुलना में छवि उत्पन्न करने की गति में 99% तेज है।
🏆 भले ही पैरामीटर की संख्या कम हो, Meissonic कई परीक्षणों में बड़े मॉडलों को पीछे छोड़ता है, और बिना प्रशिक्षण के छवियों की मरम्मत और विस्तार की सुविधा प्रदान करता है।