कंप्यूटर विज़न के क्षेत्र में, छवियों को कुशलतापूर्वक कैसे संसाधित किया जाए, यह हमेशा से ही शोध का एक प्रमुख विषय रहा है। हाल ही में, स्टैनफोर्ड विश्वविद्यालय के प्रोफेसर ली फीफी और प्रोफेसर वू जियाजुन की टीम ने एक नया शोध परिणाम प्रकाशित किया है, जिसमें एक नए प्रकार के इमेज टोकनाइज़र, "FlowMo" को प्रस्तुत किया गया है। यह नई विधि कनवल्शन न्यूरल नेटवर्क (CNN) और जनरेटिव एडवर्सरी नेटवर्क (GAN) पर निर्भर किए बिना, छवि पुनर्निर्माण की गुणवत्ता में उल्लेखनीय रूप से सुधार करती है।
जब हम एक बिल्ली की तस्वीर देखते हैं, तो हमारा दिमाग तुरंत पहचान लेता है कि यह एक बिल्ली है। हालाँकि, कंप्यूटर के लिए, छवि को संसाधित करना कहीं अधिक जटिल है। कंप्यूटर छवि को एक विशाल संख्या मैट्रिक्स के रूप में देखता है, जिसमें आमतौर पर प्रत्येक पिक्सेल को दर्शाने के लिए लाखों संख्याओं की आवश्यकता होती है। AI मॉडल को कुशलतापूर्वक सीखने में सक्षम बनाने के लिए, शोधकर्ताओं को छवि को अधिक आसानी से संसाधित होने वाले रूप में संपीड़ित करने की आवश्यकता होती है, इस प्रक्रिया को "टोकनाइज़ेशन" कहा जाता है। पारंपरिक तरीके अक्सर जटिल कनवल्शन नेटवर्क और विरोधी सीखने पर निर्भर करते हैं, लेकिन इन विधियों में कुछ सीमाएँ हैं।
चित्र स्रोत टिप्पणी: यह चित्र AI द्वारा उत्पन्न किया गया है, चित्र अधिकार सेवा प्रदाता Midjourney है।
FlowMo का मुख्य नवाचार इसकी अनूठी दो-चरणीय प्रशिक्षण रणनीति में है। सबसे पहले, मॉडल पहले चरण में कई संभावित छवि पुनर्निर्माण परिणामों को पकड़कर सीखता है, ताकि यह सुनिश्चित हो सके कि उत्पन्न छवियों में विविधता और गुणवत्ता दोनों हों। इसके बाद, दूसरा चरण पुनर्निर्माण परिणामों को अनुकूलित करने पर केंद्रित है, जिससे यह मूल छवि के करीब हो सके। यह प्रक्रिया न केवल पुनर्निर्माण की सटीकता में सुधार करती है, बल्कि उत्पन्न छवियों की दृश्य धारणा की गुणवत्ता को भी बढ़ाती है।
प्रयोग के परिणामों से पता चलता है कि FlowMo कई मानक डेटासेट पर पारंपरिक छवि टोकनाइज़र से बेहतर प्रदर्शन करता है। उदाहरण के लिए, ImageNet-1K डेटासेट पर, FlowMo ने कई बिट दर सेटिंग्स में सर्वोत्तम परिणाम प्राप्त किए हैं। विशेष रूप से कम बिट दरों पर, FlowMo का पुनर्निर्माण FID मान 0.95 है, जो वर्तमान में सबसे अच्छे मॉडल से कहीं बेहतर है।
ली फीफी की टीम का यह शोध छवि प्रसंस्करण तकनीक में एक महत्वपूर्ण सफलता का प्रतीक है, जो न केवल भविष्य के छवि निर्माण मॉडल के लिए नए विचार प्रदान करता है, बल्कि विभिन्न दृश्य अनुप्रयोग परिदृश्यों के अनुकूलन के लिए भी आधार तैयार करता है। जैसे-जैसे तकनीक में प्रगति होती जाएगी, छवि निर्माण और प्रसंस्करण अधिक कुशल और बुद्धिमान होते जाएँगे।