हाल ही में, OpenAI के शोधकर्ताओं ने एक उत्साहजनक शोध परिणाम जारी किया है, जिसमें एक नई निरंतर समय संगति मॉडल (sCM) का परिचय दिया गया है। यह मॉडल मल्टीमीडिया सामग्री (जैसे चित्र, वीडियो और ऑडियो) उत्पन्न करने की गति में एक बड़ी छलांग लगाता है, पारंपरिक प्रसार मॉडल की तुलना में इसकी गति 50 गुना बढ़ गई है। विशेष रूप से, sCM एक चित्र को 0.1 सेकंड से कम समय में उत्पन्न कर सकता है, जबकि पारंपरिक प्रसार मॉडल को अक्सर 5 सेकंड से अधिक समय लगता है।
शोध टीम ने इस तकनीक का उपयोग करके केवल दो नमूना चरणों में उच्च गुणवत्ता वाले नमूने उत्पन्न करने में सफलता हासिल की है। यह नवाचार उत्पन्न करने की प्रक्रिया को अधिक प्रभावी बनाता है, बिना नमूने की गुणवत्ता को खोए। लेख OpenAI के दो शोधकर्ताओं — लू चेंग और यांग सोंग द्वारा लिखा गया है और इसे arXiv.org पर प्रकाशित किया गया है, हालांकि यह अभी तक सहकर्मी समीक्षा से नहीं गुजरा है, लेकिन इसका संभावित प्रभाव नजरअंदाज नहीं किया जा सकता।
यांग सोंग ने 2023 में एक पेपर में "संगति मॉडल" का विचार पहली बार प्रस्तुत किया, जिसने sCM के विकास की नींव रखी। हालांकि प्रसार मॉडल वास्तविकता के चित्र, 3D मॉडल, ऑडियो और वीडियो उत्पन्न करने में उत्कृष्ट प्रदर्शन करते हैं, लेकिन उनकी नमूना दक्षता कम है, आमतौर पर कई दशकों से लेकर सैकड़ों चरणों की आवश्यकता होती है, जिससे वे वास्तविक समय के अनुप्रयोगों में कठिनाई महसूस करते हैं।
नमूना गति तेजी से
sCM मॉडल का सबसे बड़ा आकर्षण यह है कि यह बिना गणना के बोझ बढ़ाए तेजी से नमूना गति प्राप्त कर सकता है। OpenAI का सबसे बड़ा sCM मॉडल 15 अरब पैरामीटर का है, और एक A100GPU पर, नमूने उत्पन्न करने का समय केवल 0.11 सेकंड है। प्रसार मॉडल की तुलना में, इससे घड़ी का समय 50 गुना तेज हो जाता है, जिससे वास्तविक समय में उत्पन्न AI अनुप्रयोग अधिक व्यवहार्य हो जाते हैं।
कम गणना संसाधनों की आवश्यकता
नमूने की गुणवत्ता के संदर्भ में, sCM ने ImageNet512×512 डेटा सेट पर प्रशिक्षित होकर 1.88 का Fréchet Inception Distance (FID) स्कोर प्राप्त किया, जो शीर्ष प्रसार मॉडल से केवल 10% कम है। अन्य उन्नत उत्पन्न मॉडल के साथ व्यापक बेंचमार्क परीक्षण के माध्यम से, शोध टीम ने सिद्ध किया कि sCM शीर्ष परिणाम प्रदान करते समय गणना के खर्च को भी महत्वपूर्ण रूप से कम करता है।
भविष्य में, sCM मॉडल की तेज नमूना और विस्तारशीलता कई क्षेत्रों में वास्तविक समय उत्पन्न AI अनुप्रयोगों के लिए नए संभावनाओं का द्वार खोलेगी। चित्र उत्पन्न करने से लेकर ऑडियो और वीडियो संश्लेषण तक, sCM तेजी से और उच्च गुणवत्ता वाले आउटपुट की मांग को पूरा करने के लिए एक व्यावहारिक समाधान प्रदान करता है। साथ ही, OpenAI के शोध ने प्रणाली को और अनुकूलित करने की संभावनाओं का संकेत दिया है, जो विभिन्न उद्योगों की आवश्यकताओं के अनुसार मॉडल के प्रदर्शन को तेज कर सकता है।
आधिकारिक ब्लॉग: https://openai.com/index/simplifying-stabilizing-and-scaling-continuous-time-consistency-models/
पेपर: https://arxiv.org/html/2410.11081v1
मुख्य बिंदु:
📈 नई sCM मॉडल की गति में 50 गुना सुधार, चित्र उत्पन्न करने का समय 0.1 सेकंड तक घटा।
🖼️ केवल दो चरणों में नमूना, sCM उच्च गुणवत्ता वाले नमूने उत्पन्न कर सकता है, दक्षता में महत्वपूर्ण सुधार।
⚙️ भविष्य में व्यापक अनुप्रयोग, जिसमें वास्तविक समय के चित्र, ऑडियो और वीडियो उत्पन्न करना, बड़ी संभावनाएं।