एनवीडिया ने एमआईटी और तिंगहुआ विश्वविद्यालय के शोधकर्ताओं के साथ मिलकर एक नया टेक्स्ट-टू-इमेज जनरेशन फ्रेमवर्क विकसित किया है, जिसे साना कहा जाता है, जो 4096×4096 रिज़ॉल्यूशन तक की छवियों को कुशलतापूर्वक उत्पन्न कर सकता है।
साना तेज़ गति से उच्च रिज़ॉल्यूशन, उच्च गुणवत्ता और टेक्स्ट के साथ उच्च स्तर की संगति वाली छवियों को संश्लेषित कर सकता है, और इसे लैपटॉप के जीपीयू पर भी चलाया जा सकता है।
साना के मुख्य डिज़ाइन में शामिल हैं:
डीप कम्प्रेशन ऑटोएन्कोडर: पारंपरिक ऑटोएन्कोडर के विपरीत जो केवल छवि को 8 गुना संकुचित करता है, साना द्वारा प्रशिक्षित ऑटोएन्कोडर छवि को 32 गुना संकुचित कर सकता है, जिससे संभावित टैग की संख्या प्रभावी रूप से कम हो जाती है।
लाइनर DiT: साना ने DiT में सभी सामान्य ध्यान तंत्रों को लाइनर ध्यान तंत्रों से बदल दिया है, जो उच्च रिज़ॉल्यूशन छवि जनरेशन के दौरान अधिक कुशल है, और गुणवत्ता का बलिदान नहीं करता।
केवल डिकोडर टेक्स्ट एन्कोडर: शोधकर्ताओं ने टेक्स्ट एन्कोडर के रूप में T5 को एक अधिक उन्नत छोटे केवल डिकोडर भाषा मॉडल (LLM) जेम्मा से बदल दिया है, और छवि और टेक्स्ट के बीच संगति को बढ़ाने के लिए जटिल मानव निर्देश और संदर्भ सीखने को डिज़ाइन किया है।
कुशल प्रशिक्षण और सैम्पलिंग: साना ने सैम्पलिंग चरणों को कम करने के लिए फ्लो-DPM-सॉल्वर का प्रस्ताव रखा है, और मॉडल के संकुचन को तेज़ करने के लिए कुशल शीर्षक टैगिंग और चयन का उपयोग किया है।
इन डिज़ाइन के कारण, साना-0.6B का प्रदर्शन बड़े प्रसार मॉडल (जैसे फ्लक्स-12B) के समान है, लेकिन मॉडल का आकार 20 गुना छोटा है और गति 100 गुना अधिक है।
इसके अलावा, साना-0.6B को 16GB के लैपटॉप GPU पर तैनात किया जा सकता है, 1024×1024 रिज़ॉल्यूशन की छवि उत्पन्न करने में 1 सेकंड से भी कम समय लगता है, जिससे कम लागत में सामग्री निर्माण संभव हो जाता है।
साना का मुख्य लाभ इसकी कुशलता में है। 4K छवि जनरेशन के मामले में, साना-0.6B की थ्रूपुट वर्तमान में सबसे उन्नत विधियों (FLUX) की तुलना में 100 गुना तेज़ है, और 1K रिज़ॉल्यूशन पर 40 गुना तेज़ है।
शोधकर्ताओं ने साना-0.6B का मात्रात्मक विश्लेषण किया है और इसे किनारे के उपकरणों पर तैनात किया है। RTX-4090 GPU से लैस उपभोक्ता उपकरणों पर, 1024×1024 रिज़ॉल्यूशन की छवि उत्पन्न करने में केवल 0.37 सेकंड लगता है, जो वास्तविक समय छवि जनरेशन के लिए एक मजबूत आधार मॉडल प्रदान करता है।
भविष्य में, शोधकर्ता साना के आधार पर एक कुशल वीडियो जनरेशन प्रक्रिया विकसित करने की योजना बना रहे हैं। हालाँकि, इस अध्ययन में कुछ सीमाएँ भी हैं, जैसे उत्पन्न छवि सामग्री की सुरक्षा और नियंत्रण की पूरी तरह से गारंटी नहीं दी जा सकती है, और टेक्स्ट रेंडरिंग, चेहरे और हाथों की उत्पत्ति जैसे जटिल मामलों में चुनौतियाँ भी हैं।
प्रोजेक्ट का पता: https://nvlabs.github.io/Sana/
पेपर का पता: https://arxiv.org/pdf/2410.10629