गूगल DeepMind ने हाल ही में मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी (MIT) के साथ मिलकर एक महत्वपूर्ण अनुसंधान परिणाम जारी किया है। अनुसंधान टीम द्वारा विकसित नई स्व-प्रतिगमन मॉडल "Fluid" ने पाठ से चित्र निर्माण के क्षेत्र में महत्वपूर्ण प्रगति की है, यह मॉडल 10.5 बिलियन पैरामीटर के आकार में विस्तार करने के बाद उत्कृष्ट प्रदर्शन दिखाता है।

यह अनुसंधान उद्योग की सामान्य धारणा को उलट देता है। पहले, स्व-प्रतिगमन मॉडल ने भाषा प्रसंस्करण के क्षेत्र में प्रमुखता हासिल की थी, लेकिन चित्र निर्माण के मामले में इसे Stable Diffusion और Google Imagen3 जैसे प्रसार मॉडल की तुलना में कमतर माना जाता था। शोधकर्ताओं ने दो महत्वपूर्ण डिज़ाइन तत्वों को नवाचार के रूप में पेश करके स्व-प्रतिगमन मॉडल की प्रदर्शन और विस्तारशीलता में उल्लेखनीय सुधार किया: निरंतर शब्द तत्वों का उपयोग किया गया और निश्चित क्रम के बजाय यादृच्छिक उत्पादन क्रम को पेश किया गया।

image.png

चित्र सूचना प्रसंस्करण के संदर्भ में, निरंतर शब्द तत्वों का स्पष्ट लाभ है। पारंपरिक डिस्क्रीट शब्द तत्व चित्र क्षेत्रों को सीमित शब्दावली में कोडित करते हैं, इस तरीके से सूचना की हानि अनिवार्य होती है, यहां तक कि बड़े मॉडल भी सममित आँखों जैसी विवरण विशेषताओं को सटीक रूप से उत्पन्न करने में कठिनाई महसूस करते हैं। जबकि निरंतर शब्द तत्व अधिक सटीक जानकारी को बनाए रख सकते हैं, जिससे चित्र पुनर्निर्माण की गुणवत्ता में उल्लेखनीय सुधार होता है।

अनुसंधान टीम ने चित्र निर्माण क्रम में भी नवाचार किया। पारंपरिक स्व-प्रतिगमन मॉडल आमतौर पर चित्र को बाएँ से दाएँ, ऊपर से नीचे के निश्चित क्रम में उत्पन्न करते हैं। शोधकर्ताओं ने यादृच्छिक क्रम विधि का प्रयास किया, जिससे मॉडल को प्रत्येक चरण में किसी भी स्थान के कई पिक्सेल की भविष्यवाणी करने की अनुमति मिलती है। यह विधि उन कार्यों में उत्कृष्ट प्रदर्शन करती है जहाँ समग्र चित्र संरचना को अच्छी तरह से समझना आवश्यक होता है, और टेक्स्ट और उत्पन्न चित्र के मेल की माप के लिए GenEval बेंचमार्क परीक्षण में महत्वपूर्ण लाभ प्राप्त करती है।

Fluid मॉडल का वास्तविक प्रदर्शन अनुसंधान के मूल्य की पुष्टि करता है। 10.5 बिलियन पैरामीटर के आकार में विस्तार करने के बाद, Fluid कई महत्वपूर्ण बेंचमार्क परीक्षणों में मौजूदा मॉडल को पार कर गया है। ध्यान देने योग्य बात यह है कि केवल 3.69 करोड़ पैरामीटर वाला छोटा Fluid मॉडल 200 करोड़ पैरामीटर के Parti मॉडल के MS-COCO डेटा सेट पर FID स्कोर (7.23) तक पहुँच गया।

यह अनुसंधान परिणाम दर्शाता है कि Fluid जैसे स्व-प्रतिगमन मॉडल संभवतः प्रसार मॉडल के लिए एक मजबूत विकल्प बन सकते हैं। जिन प्रसार मॉडलों को कई बार अग्रणी और पीछे की ओर प्रसारण की आवश्यकता होती है, उनके मुकाबले Fluid केवल एक बार प्रसारण की आवश्यकता होती है, यह दक्षता का लाभ मॉडल के आगे के विस्तार के बाद और अधिक स्पष्ट होगा।