कृत्रिम बुद्धिमत्ता (आर्टिफिशियल इंटेलिजेंस) की नई कंपनी लूमा ने हाल ही में X प्लेटफ़ॉर्म पर घोषणा की है कि उसने इंडक्टिव मोमेंट मैचिंग (IMM) नामक एक इमेज मॉडल प्री-ट्रेनिंग तकनीक को ओपन सोर्स कर दिया है। इस अभूतपूर्व तकनीक ने अपनी उच्च दक्षता और स्थिरता के कारण व्यापक ध्यान आकर्षित किया है, और इसे जनरेटिव AI क्षेत्र में एक महत्वपूर्ण प्रगति माना जा रहा है।

X यूज़र linqi_zhou के अनुसार, IMM एक नया जनरेटिव पैराडाइम है जो एकल मॉडल और एकल लक्ष्य से शून्य से स्थिर प्रशिक्षण दे सकता है, साथ ही नमूना दक्षता और नमूना गुणवत्ता में पारंपरिक तरीकों से बेहतर प्रदर्शन करता है। उन्होंने अपने पोस्ट में उत्साह से कहा: "IMM ने ImageNet256×256 पर केवल 8 चरणों में 1.99FID (Fréchet Inception Distance) प्राप्त किया, और CIFAR-10 पर केवल 2 चरणों में 1.98FID प्राप्त किया।" यह प्रदर्शन न केवल उद्योग के मानकों को फिर से परिभाषित करता है, बल्कि इसकी उत्कृष्ट क्षमता को भी दर्शाता है।

मुख्य प्रसार मॉडल की तुलना में, IMM उच्च नमूना गुणवत्ता बनाए रखते हुए, नमूना दक्षता को 10 गुना से अधिक बढ़ा देता है। X यूज़र op7418 ने इसके तकनीकी सिद्धांत को और स्पष्ट किया: पारंपरिक प्रसार मॉडल रैखिक प्रक्षेप और बहु-चरण अभिसरण की अक्षमता से सीमित हैं, जबकि IMM अनुमान प्रक्रिया में वर्तमान समय चरण और लक्ष्य समय चरण दोनों को एक साथ संसाधित करके लचीलेपन को काफी बढ़ाता है। इस "अनुमान-प्रथम" डिज़ाइन से मॉडल कम चरणों में उच्च-गुणवत्ता वाली छवियां उत्पन्न कर सकता है, जिससे प्रसार मॉडल की एल्गोरिथम बाधा टूट जाती है।

इसके अलावा, IMM प्रशिक्षण स्थिरता में संगति मॉडल (Consistency Models) से बेहतर है। op7418 ने अपने पोस्ट में बताया कि संगति मॉडल में अस्थिर प्रशिक्षण गतिशीलता दिखाई देती है, जबकि IMM अधिक मजबूत है और विभिन्न हाइपरपैरामीटर और मॉडल आर्किटेक्चर के अनुकूल हो सकता है। यह विशेषता इसे व्यावहारिक अनुप्रयोगों में अधिक विश्वसनीय बनाती है।

लूमा द्वारा IMM को ओपन सोर्स करने के कदम को समुदाय ने बहुत सराहा है। FinanceYF5 ने X पर टिप्पणी की: "लूमा लैब्स ने IMM लॉन्च किया है, जो मौजूदा तरीकों की तुलना में छवि निर्माण की गुणवत्ता दक्षता को 10 गुना बढ़ाता है, यह विधि प्रसार मॉडल की एल्गोरिथम बाधा को तोड़ती है!" उन्होंने संबंधित तकनीकी परिचय का लिंक भी जोड़ा, जिससे अधिक उपयोगकर्ताओं ने चर्चा में भाग लिया। IMM का कोड और चेकपॉइंट GitHub के माध्यम से सार्वजनिक रूप से उपलब्ध है, और तकनीकी विवरण संबंधित शोध पत्र में विस्तार से बताया गया है, जो AI अनुसंधान में लूमा की खुलेपन की प्रतिबद्धता को दर्शाता है।

IMM के प्रदर्शन डेटा ने इसके अग्रणी स्थान की पुष्टि की है। ImageNet256×256 डेटासेट पर, IMM ने प्रसार मॉडल (2.27FID) और Flow Matching (2.15FID) को 1.99FID के साथ पार कर लिया, और नमूना चरणों में 30 गुना की कमी आई; CIFAR-10 पर, इसके 2-चरण नमूना परिणाम 1.98FID तक पहुँच गए, जो इस डेटासेट का सर्वश्रेष्ठ रिकॉर्ड है। op7418 ने यह भी उल्लेख किया कि IMM का संगणनात्मक स्केलेबिलिटी बहुत अच्छी है, और प्रशिक्षण और अनुमान संगणना की मात्रा में वृद्धि के साथ, प्रदर्शन में निरंतर सुधार होता है, जो भविष्य में बड़े पैमाने पर अनुप्रयोगों के लिए आधार तैयार करता है।

उद्योग के विशेषज्ञों का मानना ​​है कि IMM के ओपन सोर्स होने से छवि निर्माण तकनीक में एक बदलाव आ सकता है। अपनी उच्च दक्षता, उच्च गुणवत्ता और स्थिरता के साथ, यह तकनीक न केवल छवि निर्माण के लिए उपयुक्त है, बल्कि वीडियो और बहु-मोडल क्षेत्रों में भी विस्तारित की जा सकती है। लूमा टीम का कहना है कि यह बहु-मोडल बुनियादी मॉडल की दिशा में केवल पहला कदम है, और वे IMM के माध्यम से अधिक रचनात्मक बुद्धिमत्ता की संभावनाओं को अनलॉक करना चाहते हैं।

IMM के लॉन्च के साथ, वैश्विक AI प्रतियोगिता में लूमा की स्थिति और भी मजबूत हुई है। इस तकनीक के व्यापक अनुप्रयोग के दृष्टिकोण और मौजूदा मॉडल पर इसके क्रांतिकारी प्रभाव से आने वाले महीनों में लगातार चर्चा हो सकती है।