क्या आपने कभी महसूस किया है कि बड़े-बड़े डेटासेट से प्रशिक्षित इमेज मॉडल उच्च-गुणवत्ता वाली तस्वीरें बनाने में बहुत धीमे होते हैं, जैसे घोंघा पेड़ पर चढ़ रहा हो? परेशान मत होइए, Luma AI ने हाल ही में Inductive Moment Matching (IMM) नामक एक इमेज मॉडल प्री-ट्रेनिंग तकनीक को ओपन सोर्स किया है, जिससे मॉडल पहले से कहीं ज़्यादा तेज़ी से उच्च-गुणवत्ता वाली तस्वीरें बना सकते हैं, यह तो जैसे भट्टी में टर्बोचार्जर लगा दिया हो!
एल्गोरिथम ठहर गया? Luma AI ने "सीमा" को तोड़ा!
हाल के वर्षों में, AI समुदाय ने महसूस किया है कि जनरेटिव प्री-ट्रेनिंग एक बाधा में फंस गई है। भले ही डेटा की मात्रा लगातार बढ़ रही है, लेकिन एल्गोरिथम इनोवेशन अपेक्षाकृत स्थिर है। Luma AI का मानना है कि यह डेटा की कमी नहीं है, बल्कि एल्गोरिथम डेटा की क्षमता का पूरी तरह से उपयोग नहीं कर पा रहे हैं, यह सोने की खान के पास कुदाल से खुदाई करने जैसा है, जिससे बहुत कम उत्पादन होता है।
इस "एल्गोरिथम सीमा" को तोड़ने के लिए, Luma AI ने अनुमान लगाने के समय कुशल गणना विस्तार पर ध्यान केंद्रित किया। उनका मानना है कि मॉडल क्षमता पर "अति-प्रतिस्पर्धा" करने के बजाय, अनुमान लगाने के चरण में गति कैसे बढ़ाई जाए, इस पर विचार करना चाहिए। इसलिए, IMM नामक "गतिशील खिलाड़ी" का जन्म हुआ!
IMM: अनुमान को "लचीला बनाना"
तो, IMM तकनीक में आखिर क्या खासियत है जिससे इतनी ज़बरदस्त तेज़ी आती है?
मुख्य बात यह है कि यह अनुमान लगाने की दक्षता के दृष्टिकोण से प्री-ट्रेनिंग एल्गोरिथम को उल्टा डिज़ाइन करता है। पारंपरिक डिफ्यूज़न मॉडल, बारीक नक्काशी करने वाले कलाकारों की तरह होते हैं, जिन्हें हर कदम पर बारीकी से समायोजन करने की ज़रूरत होती है, भले ही मॉडल कितना ही शक्तिशाली क्यों न हो, सर्वोत्तम परिणाम प्राप्त करने के लिए कई चरणों की आवश्यकता होती है। लेकिन IMM अलग है, यह एक ऐसे चित्रकार की तरह है जिसके पास "क्षणिक परिवर्तन" की क्षमता है, अनुमान लगाने के दौरान, नेटवर्क न केवल वर्तमान समय चरण पर ध्यान केंद्रित करता है, बल्कि "लक्ष्य समय चरण" पर भी ध्यान केंद्रित करता है।
आप कल्पना कर सकते हैं कि पारंपरिक डिफ्यूज़न मॉडल इमेज बनाते समय भूलभुलैया में कदम-कदम आगे बढ़ते हैं। लेकिन IMM क्या करता है? यह सीधे भूलभुलैया के निकास को देखता है और अधिक लचीले ढंग से "कूद" सकता है, जिससे आवश्यक चरणों की संख्या बहुत कम हो जाती है। इस चतुर डिज़ाइन से हर पुनरावृत्ति अधिक अभिव्यंजक बन जाती है, और रैखिक प्रक्षेप द्वारा सीमित नहीं होती है।
और भी प्रशंसनीय बात यह है कि IMM ने अधिकतम औसत विसंगति (maximum mean discrepancy) जैसी परिपक्व मोमेंट मैचिंग तकनीक को शामिल किया है, यह "कूद" में एक सटीक नेविगेशन सिस्टम जोड़ने जैसा है, जो सुनिश्चित करता है कि मॉडल उच्च-गुणवत्ता वाले लक्ष्य की ओर सटीक रूप से आगे बढ़े।
दस गुना तेज़ी, गुणवत्ता में और भी बढ़ोतरी!
सत्य की परीक्षा केवल व्यवहार से ही होती है। Luma AI ने कई प्रयोगों से IMM की शक्तिशाली क्षमता को सिद्ध किया है:
- ImageNet256x256 डेटासेट पर, IMM ने केवल 30 गुना कम सैंपलिंग चरणों का उपयोग करके 1.99 का FID स्कोर प्राप्त किया, जो डिफ्यूज़न मॉडल (2.27 FID) और Flow Matching (2.15 FID) से बेहतर है। यह तो जैसे काम "झट से" पूरा हो गया हो, और गुणवत्ता भी बेहतर हो गई हो!
- मानक CIFAR-10 डेटासेट पर, IMM ने केवल 2 सैंपलिंग चरणों के साथ 1.98 का FID स्कोर प्राप्त किया, जो इस डेटासेट पर सर्वोत्तम स्तर है। दो चरण! आपने सही सुना, बस पलक झपकते ही!
तेज़ी के अलावा, IMM प्रशिक्षण स्थिरता के मामले में भी उत्कृष्ट प्रदर्शन करता है। इसके विपरीत, Consistency Models प्री-ट्रेनिंग के दौरान अस्थिर हो सकते हैं, जिसके लिए विशेष हाइपरपैरामीटर डिज़ाइन की आवश्यकता होती है। लेकिन IMM अधिक "सरल" है, और विभिन्न हाइपरपैरामीटर और मॉडल आर्किटेक्चर के तहत स्थिर प्रशिक्षण कर सकता है।
यह ध्यान देने योग्य है कि IMM डिफ्यूज़न मॉडल पर निर्भर नॉइज़-रिमूवल स्कोर मैचिंग या स्कोर-आधारित स्टोकेस्टिक डिफरेंशियल इक्वेशन पर निर्भर नहीं करता है। Luma AI का मानना है कि वास्तविक सफलता केवल मोमेंट मैचिंग में ही नहीं है, बल्कि उनके अनुमान-प्रथम दृष्टिकोण में भी है। इस सोच ने उन्हें मौजूदा प्री-ट्रेनिंग पैराडाइम की सीमाओं को खोजने और इन सीमाओं को तोड़ने वाले इनोवेटिव एल्गोरिदम को डिज़ाइन करने में सक्षम बनाया है।
Luma AI को IMM के भविष्य पर पूरा भरोसा है, उनका मानना है कि यह सिर्फ़ एक शुरुआत है, जो मौजूदा सीमाओं से परे बहु-मोडल बेसिक मॉडल के नए पैराडाइम की ओर इशारा करता है। वे रचनात्मक बुद्धिमत्ता की क्षमता को पूरी तरह से मुक्त करना चाहते हैं।
GitHub रिपॉजिटरी :https://github.com/lumalabs/imm