Stability AI ने हाल ही में अपनी नवीनतम गहन शिक्षण पाठ से चित्र निर्माण मॉडल - Stable Diffusion 3.5 लॉन्च किया है। इस संस्करण में तीन प्रकार के सुधारित ओपन-सोर्स मॉडल शामिल हैं, जो विभिन्न उपयोगकर्ताओं की आवश्यकताओं को पूरा करने के लिए डिज़ाइन किए गए हैं, जिसमें शोधकर्ता, व्यावसायिक ग्राहक और शौकीन शामिल हैं।

image.png

इनमें, Stable Diffusion 3.5 Large पूरे श्रृंखला का सबसे शक्तिशाली मॉडल है, जिसमें 8.1 बिलियन पैरामीटर हैं। यह मॉडल अपनी उत्कृष्ट चित्र गुणवत्ता और संकेतों के प्रति उच्च प्रतिक्रिया क्षमता के लिए पेशेवर उपयोगकर्ताओं के लिए आदर्श विकल्प बन गया है, जो 1 मेगापिक्सल तक की उच्च गुणवत्ता वाली छवियाँ उत्पन्न कर सकता है।

इसके अलावा, Stable Diffusion 3.5 Large Turbo Stable Diffusion 3.5 Large का सरलीकृत संस्करण है। यह उच्च गुणवत्ता वाली छवियाँ उत्पन्न करते समय गति को बहुत बढ़ा देता है, केवल 4 चरणों में छवि निर्माण को पूरा करता है, जो पिछले संस्करण की तुलना में अधिक प्रभावी है और तेजी से रचनात्मकता की आवश्यकता वाले उपयोगकर्ताओं के लिए उपयुक्त है।

एक और नया मॉडल है Stable Diffusion 3.5 Medium, जिसमें 2.5 बिलियन पैरामीटर हैं। यह मॉडल सुधारित MMDiT-X आर्किटेक्चर और प्रशिक्षण विधियों का उपयोग करता है, जिसे "बॉक्स से बाहर उपयोग करने के लिए" डिज़ाइन किया गया है, जो उपभोक्ता स्तर के हार्डवेयर पर भी सुचारू रूप से चल सकता है। यह चित्र निर्माण की गुणवत्ता और अनुकूलन की आसानी के बीच अच्छा संतुलन स्थापित करता है, जो 0.25 से 2 मेगापिक्सल की छवियाँ उत्पन्न कर सकता है।

इस बार का विमोचन इस पृष्ठभूमि में हुआ है कि जून में जारी Stable Diffusion 3 Medium अपेक्षित परिणाम नहीं दे सका, जिसके बाद Stability AI ने एक अधिक क्रांतिकारी समाधान पेश करने का निर्णय लिया। कंपनी ने कहा कि वे इस अपडेट के माध्यम से बाजार में अपनी प्रतिस्पर्धात्मकता फिर से हासिल करना चाहते हैं, ताकि OpenAI के DALL-E और Midjourney जैसे प्लेटफार्मों की चुनौतियों का सामना कर सकें।

नए मॉडल का एक महत्वपूर्ण तकनीकी नवाचार है क्वेरी-की सामान्यीकरण (Query-Key Normalization) तकनीक का परिचय। यह नवाचार मॉडल की अनुकूलनशीलता और संकेतों के प्रति प्रतिक्रिया क्षमता को बढ़ाता है, जिससे उपयोगकर्ता स्पष्ट संकेतों के माध्यम से अधिक स्थिर परिणाम प्राप्त कर सकते हैं, जबकि व्यापक संकेतों का उपयोग करते समय भी उन्हें अधिक समृद्ध चित्र व्याख्याएँ मिलती हैं।

Stable Diffusion 3.5 श्रृंखला के मॉडल Stability AI के सामुदायिक लाइसेंस के तहत जारी किए जाएंगे, जो उपयोगकर्ताओं को गैर-व्यावसायिक उपयोग के लिए निःशुल्क अनुमति देता है। साथ ही, वार्षिक आय 1 मिलियन डॉलर से कम वाली संस्थाएँ भी व्यावसायिक उपयोग के लिए निःशुल्क अनुमति प्राप्त कर सकती हैं, जबकि इससे अधिक आय वाले उपयोगकर्ताओं को कॉर्पोरेट लाइसेंस के लिए आवेदन करना होगा।

सभी मॉडल और उनके आत्म-होस्टिंग के लिए आवश्यक वजन Hugging Face और Stability AI के API पर उपलब्ध होंगे। इसके अलावा, आगामी दिनों में उच्च स्तरीय चित्र अनुकूलन विकल्प प्रदान करने वाले ControlNets फीचर को लॉन्च करने की उम्मीद है।

आधिकारिक प्रवेश:

https://stability.ai/stable-image

तीन संस्करणों का Hugging Face प्रवेश:

https://huggingface.co/stabilityai/stable-diffusion-3.5-large

https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo

https://huggingface.co/stabilityai/stable-diffusion-3.5-medium

महत्वपूर्ण बिंदु:

🌟 नया लॉन्च किया गया Stable Diffusion 3.5 तीन मॉडल संस्करण प्रदान करता है, जो विभिन्न उपयोगकर्ता आवश्यकताओं के अनुकूल है।  

⚡ Stable Diffusion 3.5 Large Turbo में तेज़ चित्र निर्माण गति है, जो तेज़ रचनात्मकता के लिए उपयुक्त है।  

📈 नए मॉडल ने क्वेरी-की सामान्यीकरण तकनीक पेश की है, जिससे अनुकूलनशीलता और प्रतिक्रिया क्षमता में सुधार हुआ है।