धमाकेदार शुरुआत! एनवीडिया ने ओपन-सोर्स इमेज जनरेशन मॉडल साना लॉन्च किया, 1 सेकंड में इमेज बनाएं, हिंदी और अंग्रेजी के साथ इमोजी का समर्थन

हाल ही में, NVIDIA ने एक छवि उत्पन्न करने वाले मॉडल, जिसका नाम सना है, को ओपन-सोर्स किया है। इस मॉडल में केवल 0.6 करोड़ पैरामीटर हैं, जिससे इसे चलाने की बाधा काफी कम हो गई है।

जानकारी के अनुसार, सना 4096×4096 रिज़ॉल्यूशन की छवियाँ उत्पन्न कर सकता है और इसे 16GB ग्राफिक्स कार्ड पर चलाया जा सकता है, जो 1024×1024 रिज़ॉल्यूशन की उच्च गुणवत्ता वाली छवियाँ 1 सेकंड से भी कम समय में उत्पन्न करता है। इस गति का प्रदर्शन अन्य समान मॉडल की तुलना में उत्कृष्ट है।

शोध टीम ने एक गहरी संकुचन स्व-संकोचक (DC-AE) पेश की है, जो पारंपरिक स्व-संकोचकों की तुलना में सना का संकुचन अनुपात 32 गुना अधिक है, जिससे संभावित लेबलों की संख्या में काफी कमी आई है, जो अत्यधिक उच्च रिज़ॉल्यूशन छवियों के लिए महत्वपूर्ण है। इसके अलावा, सना ने रैखिक प्रसार परिवर्तक (DiT) को अपनाया है, जिसने पारंपरिक द्वितीयक ध्यान को रैखिक ध्यान से बदलकर जटिलता को O(N) तक कम कर दिया है, और 3×3 गहरे अभिसरण के माध्यम से स्थानीय जानकारी को पकड़ने की क्षमता को बढ़ा दिया है। इस तरह के डिज़ाइन ने सना को 4K छवियों को उत्पन्न करते समय 1.7 गुना अधिक लेटेंसी में सुधार करने में मदद की है।

पाठ कोडिंग के संदर्भ में, सना ने पारंपरिक T5 मॉडल के बजाय छोटे डिकोडर-विशिष्ट बड़े भाषा मॉडल जेम्मा को चुना है। जेम्मा जटिल निर्देशों को समझने और निष्पादित करने में बेहतर प्रदर्शन करता है, जो चित्र और पाठ के बीच संरेखण की क्षमता को बढ़ाता है। इसके अतिरिक्त, सना ने प्रशिक्षण और अनुमान रणनीतियों को अनुकूलित किया है, स्वचालित लेबलिंग और उच्च CLIP स्कोर वाले विवरणों का चयन करके पाठ और चित्र की संगति में सुधार किया है। नए प्रस्तुत किए गए फ्लो-DPM-हल करने वाले एल्गोरिदम ने अनुमान के चरणों को 14-20 चरणों तक कम कर दिया है, जिससे प्रदर्शन में महत्वपूर्ण सुधार हुआ है।

कुल मिलाकर प्रदर्शन के मामले में, सना कई उन्नत पाठ से छवि प्रसार मॉडलों में उत्कृष्ट प्रदर्शन करता है। 512×512 रिज़ॉल्यूशन पर, सना-0.6 का थ्रूपुट PixArt-Σ की तुलना में 5 गुना अधिक है, और छवि उत्पन्न करने की गुणवत्ता में भी उत्कृष्टता प्रदर्शित करता है। वहीं 1024×1024 रिज़ॉल्यूशन पर, सना-0.6B 300 मिलियन से कम पैरामीटर वाले मॉडलों में भी उल्लेखनीय लाभ है।

सना-0.6B न केवल प्रदर्शन में शक्तिशाली है, बल्कि यह 16GB के लैपटॉप GPU पर तेजी से छवियाँ उत्पन्न कर सकता है, जिससे सामग्री निर्माता अपने रचनात्मक लक्ष्यों को प्रभावी ढंग से प्राप्त कर सकते हैं। कहा जाता है कि सना0.6B प्रदर्शन में Flux-12B के साथ प्रतिस्पर्धी है, जबकि इसके पैरामीटर केवल 1/20 हैं, लेकिन इसकी गति पूरी तरह से 100 गुना अधिक है।

दिलचस्प बात यह है कि सना संकेत शब्दों का समर्थन अंग्रेजी, चीनी और इमोजी में करता है। उपयोगकर्ता चीनी कविता की पंक्तियाँ दर्ज कर सकते हैं, जिससे संबंधित कलात्मक छवियाँ उत्पन्न होती हैं। इसके अलावा, सना में कुछ सुरक्षा भी है, जब उपयोगकर्ता अनुचित शब्द दर्ज करते हैं, तो सिस्टम स्वचालित रूप से लाल दिल के प्रतीक ❤️ से प्रतिस्थापित कर देता है, जिससे अनुचित सामग्री के उत्पन्न होने से बचा जा सके।

उदाहरण के लिए, AIbase में संकेत शब्द "एक बिल्ली घास में खेल रही है, तारे 🌟" दर्ज करने पर, उत्पन्न करने की गति बहुत तेज है, और परिणाम भी बहुत अच्छा है।

एक अन्य उदाहरण में, संकेत शब्द "एक प्यारा 🐼 बांस खा रहा है 🎋, स्याही चित्रकला शैली" दिया गया है, जिससे मॉडल इमोजी को सटीक रूप से पहचानता है।

यह उल्लेखनीय है कि सना को ComfyUI के लिए आधिकारिक समर्थन प्राप्त हुआ है, और Lora प्रशिक्षण उपकरण से लैस है। इससे उपयोगकर्ताओं के लिए उपयोग में आसानी बढ़ गई है, और इसकी उपयोगिता में भी काफी वृद्धि हुई है, रुचि रखने वाले मित्र इसे स्वयं आजमा सकते हैं।

प्रोजेक्ट का प्रवेश द्वार: https://nv-sana.mit.edu/

मुख्य बिंदु:
🌟 ** कुशल उत्पन्न **: सना उच्च गुणवत्ता वाली छवियाँ 4096×4096 रिज़ॉल्यूशन तक तेजी से उत्पन्न कर सकता है, जो सामान्य लैपटॉप GPU पर उपयोग के लिए उपयुक्त है।
⚙️ ** नवोन्मेषी डिज़ाइन **: गहरी संकुचन स्व-संकोचक और रैखिक प्रसार परिवर्तक ने उत्पन्न करने की गति और गुणवत्ता में काफी सुधार किया है।
🚀 ** उत्कृष्ट प्रदर्शन **: सना कई परीक्षणों में उत्कृष्ट प्रदर्शन करता है, थ्रूपुट अन्य उन्नत मॉडलों की तुलना में काफी अधिक है, जो तेज़ सामग्री निर्माण का समर्थन करता है।

AI समाचार

AIbase基地

संबंधित AI समाचार अनुशंसाएँ

CoreWeave ने AI विकास प्लेटफ़ॉर्म Weights&Biases का अधिग्रहण किया, जिससे कृत्रिम बुद्धिमत्ता में नवाचार में तेज़ी आएगी

Nvidia RTX 5070 Founders Edition की रिलीज़ में देरी

मर्करी: पहला व्यावसायिक स्तर का डिफ्यूज़न एलएलएम, तेज और मोबाइल पर भी परिनियोजित किया जा सकता है

एनवीडिया के सीईओ जेन्सेन हुआंग: डीपसीक कंपनी की बिक्री को प्रभावित नहीं करेगा, बिक्री लगातार बढ़ रही है