कृत्रिम बुद्धिमत्ता प्रौद्योगिकी में निरंतर प्रगति के साथ, एनवीडिया का ल्यूमिना-T2X छवि निर्माण मॉडल हमें नए आश्चर्य प्रदान करता है। एक ओपन-सोर्स मॉडल के रूप में, यह सौंदर्यात्मक प्रदर्शन और छवि गुणवत्ता में उद्योग के अग्रणी MJ V6 के साथ लगभग समान है, यह उपलब्धि ओपन-सोर्स क्षेत्र में विशेष रूप से महत्वपूर्ण है।

ल्यूमिना-T2X मॉडल की नवाचार इसकी एकीकृत DiT (डिफ्यूजन मॉडल) आर्किटेक्चर को अपनाने में है, जो इसे पाठ के माध्यम से विभिन्न प्रकार की मीडिया सामग्री जैसे छवियां, वीडियो, बहु-दृश्य 3D ऑब्जेक्ट और ऑडियो क्लिप उत्पन्न करने में सक्षम बनाता है। यह मल्टी-मोडल निर्माण क्षमता सामग्री निर्माण क्षेत्र में AI के अनुप्रयोगों की सीमा को काफी बढ़ाती है।

image.png

इस मॉडल श्रृंखला ने उत्पादन गुणवत्ता में सुधार करते हुए प्रशिक्षण लागत को भी काफी कम कर दिया है। उदाहरण के लिए, 50 अरब पैरामीटर वाले Flag-DiT द्वारा संचालित ल्यूमिना-T2I की प्रशिक्षण गणना लागत समान 6 करोड़ पैरामीटर मॉडल की लागत का केवल 35% है, यह लागत लाभ का अनुकूलन AI प्रौद्योगिकी की आर्थिक लाभ में विशाल क्षमता को प्रदर्शित करता है।

जारी किए गए ल्यूमिना-T2I छवि निर्माण मॉडल ने छवि गुणवत्ता में उत्कृष्टता दिखाई है, जबकि इसका कुशल मॉडल डिज़ाइन इसकी सफलता की कुंजी है। ल्यूमिना-T2I का मॉडल बैकबोन Large-DiT को अपनाता है, पाठ एन्कोडिंग मॉडल Llama2-7B का उपयोग करता है, और VAE (वैरिएशनल ऑटोएन्कोडर) SDXL को अपनाता है, इन तकनीकों का संयोजन उच्च गुणवत्ता वाली छवि निर्माण के लिए एक ठोस आधार प्रदान करता है।

Windows उपयोगकर्ताओं के लिए, यदि आपने अभी तक flash_attn स्थापित नहीं किया है, तो आपको उत्पादन गति में कमी की समस्या का सामना करना पड़ सकता है।

जो लोग रुचि रखते हैं, वे इस प्लगइन का उपयोग करके Confyui में प्रयास कर सकते हैं:

प्रोजेक्ट पता: https://github.com/kijai/ComfyUI-LuminaWrapper 

ल्यूमिना-T2X का विमोचन न केवल AI छवि निर्माण प्रौद्योगिकी में एक नया मील का पत्थर है, बल्कि ओपन-सोर्स समुदाय की एक बड़ी जीत भी है। जैसे-जैसे तकनीक का विकास जारी है, हम भविष्य में AI से सामग्री निर्माण क्षेत्र में और अधिक नवाचार और सफलता की अपेक्षा करते हैं।

ल्यूमिना-T2X प्रोजेक्ट पता: https://top.aibase.com/tool/lumina-t2x