Stable Diffusion जैसे मॉडलों का उदय छवि निर्माण के क्षेत्र में महत्वपूर्ण प्रगति का प्रतीक है, लेकिन यह स्व-प्रतिगामी भाषा मॉडलों से मौलिक भिन्नता एक एकीकृत भाषा दृश्य मॉडल के विकास में बाधा डालती है। इस समस्या को हल करने के लिए, शोधकर्ताओं ने Meissonic पेश किया, जो गैर-स्व-प्रतिगामी मास्क छवि मॉडलिंग (MIM) टेक्स्ट-टू-इमेज तकनीक को SDXL जैसे अत्याधुनिक विस्तार मॉडलों के स्तर तक बढ़ाता है।

Meissonic की मुख्य विशेषता एक श्रृंखला आर्किटेक्चर नवाचार, उन्नत स्थिति कोडिंग रणनीतियाँ और अनुकूलित नमूना शर्तें हैं, जो MIM के प्रदर्शन और दक्षता को महत्वपूर्ण रूप से बढ़ाती हैं। इसके अलावा, Meissonic उच्च गुणवत्ता वाले प्रशिक्षण डेटा का उपयोग करता है, मानव प्राथमिकता स्कोर पर आधारित सूक्ष्म शर्तों को एकीकृत करता है, और विशेषता संकुचन स्तरों को अपनाता है, जो छवियों की सत्यता और रिज़ॉल्यूशन को और बढ़ाता है।

image.png

SDXL और DeepFloyd-XL जैसे बड़े विस्तार मॉडलों के विपरीत, Meissonic के केवल 10 करोड़ पैरामीटर हैं, फिर भी यह 1024×1024 रिज़ॉल्यूशन की उच्च गुणवत्ता वाली छवियाँ उत्पन्न कर सकता है, और यह केवल 8GB वीडियो मेमोरी वाले उपभोक्ता स्तर के GPU पर चल सकता है, बिना किसी अतिरिक्त मॉडल अनुकूलन की आवश्यकता के। इसके अलावा, Meissonic आसानी से शुद्ध रंग पृष्ठभूमि वाली छवियाँ उत्पन्न कर सकता है, जबकि यह विस्तार मॉडलों में सामान्यतः मॉडल ट्यूनिंग या शोर偏移 समायोजन की आवश्यकता होती है।

कुशल प्रशिक्षण के लिए, Meissonic का प्रशिक्षण प्रक्रिया चार सावधानीपूर्वक डिज़ाइन किए गए चरणों में विभाजित है:

पहला चरण: विशाल डेटा से मूल अवधारणाओं को समझना। Meissonic ने 256×256 रिज़ॉल्यूशन पर प्रशिक्षित LAION-2B डेटा सेट का उपयोग करके मूल अवधारणाओं को सीखा।

दूसरा चरण: लंबे संकेतों का उपयोग करके पाठ और छवियों को संरेखित करना। प्रशिक्षण रिज़ॉल्यूशन को 512×512 पर बढ़ाया गया, और उच्च गुणवत्ता वाली सिंथेटिक छवि-पाठ जोड़ी और आंतरिक डेटा सेट का उपयोग करके मॉडल को लंबे वर्णनात्मक संकेतों को समझने की क्षमता बढ़ाई गई।

तीसरा चरण: उच्च रिज़ॉल्यूशन निर्माण के लिए विशेषता संकुचन में महारत हासिल करना। विशेषता संकुचन स्तरों को पेश करके, Meissonic 512×512 से 1024×1024 निर्माण में निर्बाध रूप से संक्रमण कर सकता है, और उच्च गुणवत्ता वाली उच्च रिज़ॉल्यूशन छवि-पाठ जोड़ी का उपयोग करके प्रशिक्षित किया गया।

चौथा चरण: उच्च रिज़ॉल्यूशन सौंदर्यशास्त्र छवि निर्माण का अनुकूलन। इस चरण में, मॉडल को छोटे सीखने की दर पर ट्यून किया गया और मानव प्राथमिकता स्कोर को सूक्ष्म शर्त के रूप में जोड़ा गया, ताकि उच्च गुणवत्ता वाली छवियाँ उत्पन्न करने के प्रदर्शन को बढ़ाया जा सके।

HPS, MPS, GenEval बेंचमार्क परीक्षण और GPT4o मूल्यांकन सहित कई मात्रात्मक और गुणात्मक मापदंडों के मूल्यांकन के माध्यम से, Meissonic ने उत्कृष्ट प्रदर्शन और दक्षता दिखाई। DALL-E2 और SDXL की तुलना में, Meissonic ने मानव प्रदर्शन और पाठ संरेखण दोनों में प्रतिस्पर्धात्मक प्रदर्शन प्राप्त किया, जबकि इसकी दक्षता भी प्रदर्शित की।

इसके अलावा, Meissonic शून्य-नमूना छवि संपादन में भी उत्कृष्ट प्रदर्शन करता है। EMU-Edit डेटा सेट पर, Meissonic ने पृष्ठभूमि परिवर्तन, छवि सामग्री परिवर्तन, शैली परिवर्तन, वस्तु हटाने, वस्तु जोड़ने, स्थानीय संशोधन और रंग/पैटर्न परिवर्तन जैसे सात विभिन्न कार्यों में प्रमुख परिणाम प्राप्त किए, और यह सब बिना किसी विशेष छवि संपादन डेटा या निर्देश सेट पर प्रशिक्षण या ट्यूनिंग किए।

प्रोजेक्ट का पता: https://github.com/viiika/Meissonic

पेपर का पता: https://arxiv.org/pdf/2410.08261