हाल ही में, NVIDIA ने एक छवि उत्पन्न करने वाले मॉडल, जिसका नाम सना है, को ओपन-सोर्स किया है। इस मॉडल में केवल 0.6 करोड़ पैरामीटर हैं, जिससे इसे चलाने की बाधा काफी कम हो गई है।

image.png

जानकारी के अनुसार, सना 4096×4096 रिज़ॉल्यूशन की छवियाँ उत्पन्न कर सकता है और इसे 16GB ग्राफिक्स कार्ड पर चलाया जा सकता है, जो 1024×1024 रिज़ॉल्यूशन की उच्च गुणवत्ता वाली छवियाँ 1 सेकंड से भी कम समय में उत्पन्न करता है। इस गति का प्रदर्शन अन्य समान मॉडल की तुलना में उत्कृष्ट है।

शोध टीम ने एक गहरी संकुचन स्व-संकोचक (DC-AE) पेश की है, जो पारंपरिक स्व-संकोचकों की तुलना में सना का संकुचन अनुपात 32 गुना अधिक है, जिससे संभावित लेबलों की संख्या में काफी कमी आई है, जो अत्यधिक उच्च रिज़ॉल्यूशन छवियों के लिए महत्वपूर्ण है। इसके अलावा, सना ने रैखिक प्रसार परिवर्तक (DiT) को अपनाया है, जिसने पारंपरिक द्वितीयक ध्यान को रैखिक ध्यान से बदलकर जटिलता को O(N) तक कम कर दिया है, और 3×3 गहरे अभिसरण के माध्यम से स्थानीय जानकारी को पकड़ने की क्षमता को बढ़ा दिया है। इस तरह के डिज़ाइन ने सना को 4K छवियों को उत्पन्न करते समय 1.7 गुना अधिक लेटेंसी में सुधार करने में मदद की है।

पाठ कोडिंग के संदर्भ में, सना ने पारंपरिक T5 मॉडल के बजाय छोटे डिकोडर-विशिष्ट बड़े भाषा मॉडल जेम्मा को चुना है। जेम्मा जटिल निर्देशों को समझने और निष्पादित करने में बेहतर प्रदर्शन करता है, जो चित्र और पाठ के बीच संरेखण की क्षमता को बढ़ाता है। इसके अतिरिक्त, सना ने प्रशिक्षण और अनुमान रणनीतियों को अनुकूलित किया है, स्वचालित लेबलिंग और उच्च CLIP स्कोर वाले विवरणों का चयन करके पाठ और चित्र की संगति में सुधार किया है। नए प्रस्तुत किए गए फ्लो-DPM-हल करने वाले एल्गोरिदम ने अनुमान के चरणों को 14-20 चरणों तक कम कर दिया है, जिससे प्रदर्शन में महत्वपूर्ण सुधार हुआ है।

कुल मिलाकर प्रदर्शन के मामले में, सना कई उन्नत पाठ से छवि प्रसार मॉडलों में उत्कृष्ट प्रदर्शन करता है। 512×512 रिज़ॉल्यूशन पर, सना-0.6 का थ्रूपुट PixArt-Σ की तुलना में 5 गुना अधिक है, और छवि उत्पन्न करने की गुणवत्ता में भी उत्कृष्टता प्रदर्शित करता है। वहीं 1024×1024 रिज़ॉल्यूशन पर, सना-0.6B 300 मिलियन से कम पैरामीटर वाले मॉडलों में भी उल्लेखनीय लाभ है।

सना-0.6B न केवल प्रदर्शन में शक्तिशाली है, बल्कि यह 16GB के लैपटॉप GPU पर तेजी से छवियाँ उत्पन्न कर सकता है, जिससे सामग्री निर्माता अपने रचनात्मक लक्ष्यों को प्रभावी ढंग से प्राप्त कर सकते हैं। कहा जाता है कि सना0.6B प्रदर्शन में Flux-12B के साथ प्रतिस्पर्धी है, जबकि इसके पैरामीटर केवल 1/20 हैं, लेकिन इसकी गति पूरी तरह से 100 गुना अधिक है।

दिलचस्प बात यह है कि सना संकेत शब्दों का समर्थन अंग्रेजी, चीनी और इमोजी में करता है। उपयोगकर्ता चीनी कविता की पंक्तियाँ दर्ज कर सकते हैं, जिससे संबंधित कलात्मक छवियाँ उत्पन्न होती हैं। इसके अलावा, सना में कुछ सुरक्षा भी है, जब उपयोगकर्ता अनुचित शब्द दर्ज करते हैं, तो सिस्टम स्वचालित रूप से लाल दिल के प्रतीक ❤️ से प्रतिस्थापित कर देता है, जिससे अनुचित सामग्री के उत्पन्न होने से बचा जा सके।

उदाहरण के लिए, AIbase में संकेत शब्द "एक बिल्ली घास में खेल रही है, तारे 🌟" दर्ज करने पर, उत्पन्न करने की गति बहुत तेज है, और परिणाम भी बहुत अच्छा है।

image.png

एक अन्य उदाहरण में, संकेत शब्द "एक प्यारा 🐼 बांस खा रहा है 🎋, स्याही चित्रकला शैली" दिया गया है, जिससे मॉडल इमोजी को सटीक रूप से पहचानता है।

image.png

यह उल्लेखनीय है कि सना को ComfyUI के लिए आधिकारिक समर्थन प्राप्त हुआ है, और Lora प्रशिक्षण उपकरण से लैस है। इससे उपयोगकर्ताओं के लिए उपयोग में आसानी बढ़ गई है, और इसकी उपयोगिता में भी काफी वृद्धि हुई है, रुचि रखने वाले मित्र इसे स्वयं आजमा सकते हैं।

प्रोजेक्ट का प्रवेश द्वार: https://nv-sana.mit.edu/

मुख्य बिंदु: 

🌟 ** कुशल उत्पन्न **: सना उच्च गुणवत्ता वाली छवियाँ 4096×4096 रिज़ॉल्यूशन तक तेजी से उत्पन्न कर सकता है, जो सामान्य लैपटॉप GPU पर उपयोग के लिए उपयुक्त है।

 ⚙️ ** नवोन्मेषी डिज़ाइन **: गहरी संकुचन स्व-संकोचक और रैखिक प्रसार परिवर्तक ने उत्पन्न करने की गति और गुणवत्ता में काफी सुधार किया है। 

🚀 ** उत्कृष्ट प्रदर्शन **: सना कई परीक्षणों में उत्कृष्ट प्रदर्शन करता है, थ्रूपुट अन्य उन्नत मॉडलों की तुलना में काफी अधिक है, जो तेज़ सामग्री निर्माण का समर्थन करता है।