कृत्रिम बुद्धिमत्ता के क्षेत्र में, एआई कलाकारों की क्षमताएं लगातार突破 और प्रगति कर रही हैं। हालांकि, सबसे उन्नत एआई छवि उत्पन्न करने वाले मॉडल भी कुछ सरल कार्यों में कठिनाइयों का सामना कर सकते हैं। हाल ही में, शंघाई जियाओ टोंग विश्वविद्यालय के पीएचडी छात्र झाओ जुन तु और उनकी टीम ने एक अध्ययन में पाया कि एआई "चाय के कप में बर्फीला कोला" दृश्य उत्पन्न करने में अप्रत्याशित कठिनाइयों का सामना कर रहा था।

यह घटना अकादमिक जगत में ध्यान आकर्षित कर रही है, जिसे पाठ-छवि असंगति समस्या (text-image misalignment) कहा जाता है। अक्टूबर 2023 में, जब एआई छवि उत्पन्न करने वाले मॉडल उभर रहे थे, झाओ जुन तु और उनकी टीम ने प्रयास किया और पाया कि एआई कलाकार इस दृश्य को बनाते समय अक्सर एक पारदर्शी कांच के कप में बर्फीले कोला को चित्रित करते हैं, न कि चाय के कप में। यहां तक कि 2024 जुलाई में सबसे उन्नत मॉडल का उपयोग करते समय, परिणाम अभी भी संतोषजनक नहीं थे।

image.png

इस समस्या की गहराई से जांच करने के लिए, शंघाई जियाओ टोंग विश्वविद्यालय के प्रोफेसर वांग देक्वान की शोध टीम ने अपनी आगामी पेपर "Lost in Translation: Latent Concept Misalignment in Text-to-Image Diffusion Models" में इस समस्या को छिपे हुए चर की असंगति समस्या (Latent Concept Misalignment, संक्षेप में LC-Mis) के रूप में वर्गीकृत किया है। उन्होंने एक बड़े भाषा मॉडल (LLMs) पर आधारित प्रणाली डिजाइन की, जो LLMs में निहित मानव सोच का उपयोग करके समान समस्याओं वाले अवधारणाओं को तेजी से एकत्र करने में मदद करती है।

शोध टीम ने "Mixture of Concept Experts" (MoCE) नामक एक विधि प्रस्तुत की, जिसने क्रमिक चित्रण के नियमों को डिफ्यूजन मॉडल के बहु-चरण नमूना प्रक्रिया में शामिल किया, और सफलतापूर्वक गायब चाय के कप को वापस लाया।

यह समग्र नमूना प्रक्रिया को दो चरणों में विभाजित करता है: पहले चरण में केवल उन अवधारणाओं को प्रदान किया जाता है जो आसानी से अनदेखी की जा सकती हैं, और दूसरे चरण में पूर्ण पाठ संकेत का उपयोग किया जाता है। इस विधि के माध्यम से, MoCE चित्र उत्पन्न करते समय पाठ और चित्र के बीच संरेखण को अधिक सटीकता से नियंत्रित कर सकता है।

MoCE विधि ने 5वें स्तर के LC-Mis अवधारणाओं के अनुपात को काफी कम किया, और यहां तक कि कुछ हद तक Dall・E3 (अक्टूबर 2023 संस्करण) की आवश्यकता के मुकाबले अधिक डेटा लेबलिंग लागत के बिना बेहतर परिणाम दिए।

इसके अतिरिक्त, शोध टीम ने पाया कि मौजूदा स्वचालित मूल्यांकन मानदंड इस प्रकार की नई समस्याओं का सामना करते समय स्पष्ट दोषों का सामना कर रहे हैं। उदाहरण के लिए, कुछ मूल्यांकन मानदंड चाय के कप में बर्फीले कोला को कम स्कोर देते हैं, जबकि पारदर्शी कांच के कप में बर्फीले कोला को उच्च स्कोर देते हैं। यह दर्शाता है कि एआई के प्रदर्शन का मूल्यांकन करने वाले उपकरणों में भी पूर्वाग्रह और सीमाएँ हो सकती हैं।

शोधकर्ता भविष्य के कार्यों में अधिक जटिल LC-Mis दृश्यों की खोज करने और पुनरावृत्ति की संख्या को कम करने के लिए सीखने योग्य खोज एल्गोरिदम विकसित करने की योजना बना रहे हैं। वे डेटा सेट में उपयोग किए जाने वाले मॉडल प्रकारों, मॉडल संस्करणों और सैंपलर प्रकारों का विस्तार करने की योजना भी बना रहे हैं, और डेटा सेट संग्रह एल्गोरिदम को लगातार पुनरावृत्त करते रहेंगे, ताकि डेटा सेट को मजबूत और विस्तारित किया जा सके।

यह अध्ययन न केवल एआई की छवि उत्पन्न करने की सीमाओं को समझने के लिए एक नया दृष्टिकोण प्रदान करता है, बल्कि एआई की छवि उत्पन्न करने की क्षमताओं को सुधारने के लिए नए विचारों और विधियों की पेशकश भी करता है। तकनीक में निरंतर प्रगति के साथ, हम एआई की मानव रचनात्मकता को समझने और पुन: उत्पन्न करने में और अधिक सफलताओं की उम्मीद करते हैं।

प्रोजेक्ट का पता: https://lcmis.github.io/

पेपर: https://arxiv.org/pdf/2408.00230