मल्टीमॉडल जनरेटिव मॉडल आर्टिफिशियल इंटेलिजेंस के नवीनतम प्रवाह का नेतृत्व कर रहे हैं, जो दृश्य और पाठ डेटा को एकीकृत करने के लिए समर्पित हैं, ताकि विभिन्न कार्यों को पूरा करने वाले सिस्टम बनाए जा सकें। ये कार्य पाठ वर्णन के आधार पर उच्च विवरण वाली छवियाँ उत्पन्न करने से लेकर विभिन्न डेटा प्रकारों के बीच समझ और निष्कर्ष निकालने तक फैले हुए हैं, जिससे अधिक इंटरैक्टिव और स्मार्ट एआई सिस्टम का निर्माण हो रहा है, जो दृश्य और भाषा को Seamless जोड़ते हैं।
इस क्षेत्र में, एक प्रमुख चुनौती आत्म-प्रतिगामी (AR) मॉडल विकसित करना है, जो पाठ वर्णन के आधार पर यथार्थवादी छवियाँ उत्पन्न कर सके। यद्यपि प्रसार मॉडल ने इस क्षेत्र में महत्वपूर्ण प्रगति की है, आत्म-प्रतिगामी मॉडल का प्रदर्शन अपेक्षाकृत पीछे रह गया है, विशेष रूप से छवि गुणवत्ता, रिज़ॉल्यूशन लचीलापन और विभिन्न दृश्य कार्यों को संभालने की क्षमता के मामले में। यह अंतर शोधकर्ताओं को AR मॉडल की क्षमताओं को बढ़ाने के लिए नवीन तरीकों की खोज करने के लिए प्रेरित करता है।
वर्तमान में, पाठ से छवि उत्पन्न करने के क्षेत्र में अधिकांश प्रसार मॉडल का कब्जा है, जो उच्च गुणवत्ता, दृश्यात्मक रूप से आकर्षक छवियों को उत्पन्न करने में उत्कृष्टता दिखाते हैं। हालाँकि, LlamaGen और Parti जैसे AR मॉडल इस मामले में संघर्ष करते हैं। वे अक्सर जटिल एन्कोडिंग-डीकोडिंग आर्किटेक्चर पर निर्भर होते हैं और आमतौर पर केवल निश्चित रिज़ॉल्यूशन की छवियाँ उत्पन्न कर सकते हैं। यह सीमा उनके विविध, उच्च-रिज़ॉल्यूशन आउटपुट उत्पन्न करने की लचीलापन और प्रभावशीलता को काफी कम कर देती है।
इस बाधा को तोड़ने के लिए, शंघाई एआई प्रयोगशाला और हांगकांग चाइनीज यूनिवर्सिटी के शोधकर्ताओं ने लुमिना-mGPT पेश किया, जो एक उन्नत AR मॉडल है, जिसका उद्देश्य इन सीमाओं को पार करना है। लुमिना-mGPT डिकोडर-केवल ट्रांसफार्मर आर्किटेक्चर पर आधारित है और मल्टीमॉडल जनरेटिव प्री-ट्रेनिंग (mGPT) दृष्टिकोण को अपनाता है। यह मॉडल दृश्य और भाषा कार्यों को एकीकृत ढांचे में लाता है, जिसका लक्ष्य प्रसार मॉडल के समान स्तर की यथार्थवादी छवि उत्पन्न करना है, जबकि AR विधि की सरलता और स्केलेबिलिटी को बनाए रखता है।
लुमिना-mGPT ने छवि उत्पन्न करने की क्षमता को बढ़ाने के लिए एक विस्तृत दृष्टिकोण अपनाया है, जिसका केंद्र बिंदु लचीला प्रगतिशील पर्यवेक्षित माइक्रोट्यूनिंग (FP-SFT) रणनीति है। यह रणनीति कम रिज़ॉल्यूशन से शुरू होकर उच्च रिज़ॉल्यूशन की छवियों को उत्पन्न करने के लिए मॉडल को क्रमिक रूप से प्रशिक्षित करती है, पहले कम रिज़ॉल्यूशन पर सामान्य दृश्य अवधारणाओं को सीखती है, फिर धीरे-धीरे अधिक जटिल उच्च रिज़ॉल्यूशन विवरणों को पेश करती है। इसके अलावा, इस मॉडल में एक अभिनव स्पष्ट छवि प्रतिनिधित्व प्रणाली भी शामिल है, जो विशिष्ट ऊँचाई और चौड़ाई संकेतक और पंक्ति समाप्ति टैग को पेश करके परिवर्तनशील छवि रिज़ॉल्यूशन और अनुपात से संबंधित अस्पष्टता को समाप्त करती है।
प्रदर्शन के मामले में, लुमिना-mGPT ने यथार्थवादी छवियाँ उत्पन्न करने में पिछले AR मॉडलों को महत्वपूर्ण रूप से पीछे छोड़ दिया है। यह 1024×1024 पिक्सल के उच्च रिज़ॉल्यूशन की छवियाँ उत्पन्न कर सकता है, जिसमें विवरण समृद्ध होते हैं, और यह प्रदान किए गए पाठ संकेत के साथ उच्च स्तर पर मेल खाता है। शोधकर्ताओं ने रिपोर्ट किया है कि लुमिना-mGPT को केवल 10 मिलियन छवि-पाठ जोड़े पर प्रशिक्षित करने की आवश्यकता है, जो LlamaGen द्वारा आवश्यक 50 मिलियन जोड़ों से बहुत कम है। डेटा सेट छोटा होने के बावजूद, लुमिना-mGPT छवि गुणवत्ता और दृश्य सामंजस्य के मामले में प्रतिस्पर्धियों को पीछे छोड़ता है। इसके अलावा, यह मॉडल दृश्य प्रश्नोत्तर, घनिष्ठ लेबलिंग और नियंत्रित छवि उत्पन्न करने जैसे कई कार्यों का समर्थन करता है, जो इसके मल्टीमॉडल प्रतिभा के लचीलेपन को दर्शाता है।
इसकी लचीली और स्केलेबल आर्किटेक्चर लुमिना-mGPT की विविध, उच्च गुणवत्ता वाली छवियों को उत्पन्न करने की क्षमता को और बढ़ाती है। यह मॉडल उन्नत डिकोडिंग तकनीकों का उपयोग करता है, जैसे कि बिना वर्गीकर्ता मार्गदर्शन (CFG), जो उत्पन्न छवियों की गुणवत्ता को बढ़ाने में महत्वपूर्ण भूमिका निभाता है। उदाहरण के लिए, तापमान और टॉप-के मान जैसे पैरामीटर को समायोजित करके, लुमिना-mGPT उत्पन्न छवियों के विवरण और विविधता को नियंत्रित कर सकता है, दृश्य कलंक को कम करने और समग्र सौंदर्य को बढ़ाने में मदद कर सकता है।
लुमिना-mGPT आत्म-प्रतिगामी छवि उत्पन्न करने के क्षेत्र में महत्वपूर्ण प्रगति का प्रतीक है। यह मॉडल, जिसे शंघाई एआई प्रयोगशाला और हांगकांग चाइनीज यूनिवर्सिटी के शोधकर्ताओं द्वारा विकसित किया गया है, AR मॉडल और प्रसार मॉडल के बीच एक पुल स्थापित करने में सफल रहा है, जो पाठ से यथार्थवादी छवियाँ उत्पन्न करने के लिए एक मजबूत नया उपकरण प्रदान करता है। इसकी मल्टीमॉडल प्री-ट्रेनिंग और लचीले माइक्रोट्यूनिंग में नवोन्मेषी दृष्टिकोण AR मॉडल की संभावित परिवर्तनकारी क्षमताओं को प्रदर्शित करता है, जो भविष्य में अधिक जटिल और बहु-प्रतिभाशाली एआई सिस्टम के जन्म की भविष्यवाणी करता है।
प्रोजेक्ट का पता: https://top.aibase.com/tool/lumina-mgpt
ऑनलाइन परीक्षण का पता: https://106.14.2.150:10020/