AI चित्र जनरेशन तकनीक तेजी से विकसित हो रही है, लेकिन मॉडल का आकार बढ़ता जा रहा है, जिससे सामान्य उपयोगकर्ताओं के लिए प्रशिक्षण और उपयोग की लागत बहुत अधिक हो गई है। अब, "Sana" नामक एक नई टेक्स्ट-टू-इमेज फ्रेमवर्क सामने आई है, जो 4096×4096 रिज़ॉल्यूशन तक के उच्च गुणवत्ता वाले चित्रों को प्रभावी ढंग से उत्पन्न कर सकती है, और इसकी गति अविश्वसनीय है, यहां तक कि यह लैपटॉप के GPU पर भी चल सकती है।

image.png

Sana के मुख्य डिज़ाइन में शामिल हैं:

गहन संकुचन स्व-कोडित: पारंपरिक स्व-कोडित के केवल 8 गुना संकुचन के विपरीत, Sana द्वारा उपयोग किया जाने वाला स्व-कोडित चित्र को 32 गुना संकुचित कर सकता है, जिससे संभावित टोकन की संख्या प्रभावी ढंग से कम हो जाती है। यह उच्च गुणवत्ता वाले चित्रों को प्रशिक्षित और उत्पन्न करने के लिए महत्वपूर्ण है।

रेखीय DiT: Sana ने DiT में सभी पारंपरिक ध्यान तंत्रों को रेखीय ध्यान से बदल दिया है, जिससे उच्च गुणवत्ता वाले चित्रों की प्रक्रिया की दक्षता में सुधार हुआ है, बिना गुणवत्ता को त्यागे। रेखीय ध्यान गणना की जटिलता को O(N²) से O(N) तक कम करता है। इसके अलावा, Sana ने Mix-FFN का उपयोग किया है, जिसने 3x3 गहन संयोजन को MLP में एकीकृत किया है, ताकि टोकनों की स्थानीय जानकारी को एकत्र किया जा सके, और अब स्थिति कोडिंग की आवश्यकता नहीं है।

डिकोडर-शैली पाठ कोडर: Sana ने पाठ कोडर के रूप में नवीनतम डिकोडर-शैली छोटे LLM (जैसे Gemma) का उपयोग किया है, जो पहले के सामान्य CLIP या T5 को प्रतिस्थापित करता है। यह विधि उपयोगकर्ता के संकेतों की समझ और तर्क क्षमता को बढ़ाती है, और जटिल मानव निर्देशों और संदर्भ शिक्षा के माध्यम से चित्र पाठ की संरेखण को बेहतर बनाती है।

प्रभावी प्रशिक्षण और नमूना रणनीतियाँ: Sana ने नमूना चरणों को कम करने के लिए Flow-DPM-Solver का उपयोग किया है, और मॉडल के संकुचन को तेज करने के लिए प्रभावी शीर्षक लेबलिंग और चयन विधियों का उपयोग किया है। Sana-0.6B मॉडल बड़े प्रसार मॉडल (जैसे Flux-12B) की तुलना में 20 गुना छोटा है, और इसकी गति 100 गुना अधिक है।

image.png

Sana की नवीनता यह है कि यह निम्नलिखित तरीकों से अनुमानित विलंबता को महत्वपूर्ण रूप से कम करती है:

एल्गोरिदम और प्रणाली का सहयोगी अनुकूलन: विभिन्न अनुकूलन विधियों के माध्यम से, Sana ने 4096x4096 चित्र के निर्माण समय को 469 सेकंड से घटाकर 9.6 सेकंड कर दिया है, जो वर्तमान में सबसे उन्नत मॉडल Flux से 106 गुना तेज है।

गहन संकुचन स्व-कोडित: Sana ने AE-F32C32P1 संरचना का उपयोग किया है, जो चित्र को 32 गुना संकुचित करता है, जिससे टोकनों की संख्या में महत्वपूर्ण कमी आती है और प्रशिक्षण और अनुमानित गति बढ़ती है।

रेखीय ध्यान: पारंपरिक स्व-ध्यान तंत्र को रेखीय ध्यान से बदलने से उच्च गुणवत्ता वाले चित्रों की प्रक्रिया की दक्षता में सुधार हुआ है।

Triton त्वरण: Triton का उपयोग करके रेखीय ध्यान मॉड्यूल के अग्र और पीछे की प्रक्रियाओं के कोर को एकीकृत किया गया है, जिससे प्रशिक्षण और अनुमानित गति और बढ़ गई है।

Flow-DPM-Solver: अनुमानित नमूना चरणों को 28-50 चरणों से घटाकर 14-20 चरणों तक लाया गया है, जबकि बेहतर निर्माण प्रभाव प्राप्त किया गया है।

Sana का प्रदर्शन अत्यधिक उत्कृष्ट है। 1024x1024 रिज़ॉल्यूशन पर, Sana-0.6B मॉडल के पैरामीटर केवल 5.9 करोड़ हैं, लेकिन इसकी समग्र प्रदर्शन 0.64GenEval तक पहुँच गई है, जो कई बड़े मॉडलों की तुलना में कम नहीं है। और, Sana-0.6B को 16GB लैपटॉप GPU पर तैनात किया जा सकता है, 1024×1024 रिज़ॉल्यूशन के चित्र को उत्पन्न करने में केवल 1 सेकंड से कम समय लगता है। 4K चित्र निर्माण के लिए, Sana-0.6B की थ्रूपुट सबसे उन्नत विधियों (FLUX) से 100 गुना अधिक तेज है। Sana ने न केवल गति में突破 किया है, बल्कि चित्र की गुणवत्ता में भी प्रतिस्पर्धात्मकता रखी है, यहां तक कि जटिल दृश्यों, जैसे पाठ रेंडरिंग और वस्तु विवरण में, Sana का प्रदर्शन संतोषजनक है।

इसके अलावा, Sana में मजबूत शून्य-नमूना भाषा स्थानांतरण क्षमता है। केवल अंग्रेजी डेटा का उपयोग करके प्रशिक्षण करने के बावजूद, Sana चीनी और इमोजी संकेतों को समझ सकती है और संबंधित चित्र उत्पन्न कर सकती है।

Sana का आगमन उच्च गुणवत्ता वाले चित्र निर्माण की बाधाओं को कम करता है, पेशेवरों और सामान्य उपयोगकर्ताओं के लिए शक्तिशाली सामग्री निर्माण उपकरण प्रदान करता है। Sana का कोड और मॉडल सार्वजनिक रूप से जारी किया जाएगा।

अनुभव लिंक: https://nv-sana.mit.edu/

पत्र लिंक: https://arxiv.org/pdf/2410.10629

Github: https://github.com/NVlabs/Sana