कृत्रिम बुद्धिमत्ता द्वारा संचालित चित्र निर्माण और समझ के क्षेत्र में, तेजी से प्रगति के बावजूद, महत्वपूर्ण चुनौतियाँ बनी हुई हैं, जो एक निर्बाध और एकीकृत दृष्टिकोण के विकास में बाधा डालती हैं।

वर्तमान में, चित्र समझ पर ध्यान केंद्रित करने वाले मॉडल अक्सर उच्च गुणवत्ता वाले चित्र उत्पन्न करने में असफल रहते हैं, और इसके विपरीत। इस प्रकार का कार्य विभाजन केवल जटिलता को बढ़ाता है, बल्कि दक्षता को भी सीमित करता है, जिससे उन कार्यों को संभालना कठिन हो जाता है जिनमें समझ और निर्माण दोनों की आवश्यकता होती है। इसके अलावा, कई मौजूदा मॉडल किसी भी कार्य को प्रभावी ढंग से करने के लिए आर्किटेक्चर संशोधन या पूर्व-प्रशिक्षित घटकों पर अत्यधिक निर्भर करते हैं, जिससे प्रदर्शन के समझौते और एकीकरण की चुनौतियाँ उत्पन्न होती हैं।

इन समस्याओं का समाधान करने के लिए, DeepSeek AI ने JanusFlow पेश किया है, जो एक शक्तिशाली एआई ढांचा है, जिसका उद्देश्य चित्र समझ और निर्माण को एकीकृत करना है। JanusFlow चित्र समझ और निर्माण को एक एकीकृत आर्किटेक्चर में शामिल करके पूर्व में उल्लेखित कमियों को दूर करता है। यह नवीनतम ढांचा सरल डिजाइन को अपनाता है, जो आत्म-प्रतिस्थापित भाषा मॉडल और सुधारित प्रवाह (rectified flow) - एक अत्याधुनिक निर्माण मॉडलिंग विधि - को जोड़ता है।

image.png

स्वतंत्र LLM और निर्माण घटकों की आवश्यकता को समाप्त करके, JanusFlow अधिक निकटता से कार्यात्मक एकीकरण को लागू करता है, जबकि आर्किटेक्चर की जटिलता को कम करता है। यह एक द्विअवयवी कोडर-डिकोडर संरचना को पेश करता है, जो समझ और निर्माण कार्यों को अलग करता है, और संरेखित प्रतिनिधित्व के माध्यम से एकीकृत प्रशिक्षण योजना में प्रदर्शन की स्थिरता सुनिश्चित करता है।

तकनीकी विवरण के संदर्भ में, JanusFlow हल्के और प्रभावी ढंग से सुधारित प्रवाह और बड़े भाषा मॉडल को एकीकृत करता है। इस आर्किटेक्चर में समझ और निर्माण कार्यों के लिए स्वतंत्र दृश्य कोडर शामिल हैं। प्रशिक्षण के दौरान, ये कोडर आपस में संरेखित होते हैं ताकि अर्थ संबंधी स्थिरता बढ़ सके, जिससे प्रणाली चित्र निर्माण और दृश्य समझ कार्यों में उत्कृष्ट प्रदर्शन कर सके।

इस कोडर के अलगाव से कार्यों के बीच हस्तक्षेप को रोका जाता है, जिससे प्रत्येक मॉड्यूल की क्षमता बढ़ती है। मॉडल बिना वर्गीकर्ता मार्गदर्शन (CFG) का उपयोग करता है ताकि उत्पन्न चित्र और पाठ की शर्तों के बीच संरेखण को नियंत्रित किया जा सके, जिससे चित्र की गुणवत्ता में सुधार होता है। पारंपरिक प्रणाली की तुलना में जो प्रसार मॉडल का उपयोग बाहरी उपकरण के रूप में करती है, JanusFlow एक सरल और सीधा निर्माण प्रक्रिया प्रदान करता है, जिसमें सीमाएँ भी कम हैं। इस आर्किटेक्चर की प्रभावशीलता कई बेंचमार्क परीक्षणों में कई विशिष्ट कार्य मॉडलों के प्रदर्शन को पार करने या प्रतिस्पर्धा करने में इसकी क्षमता में निहित है।

JanusFlow का महत्व इसकी दक्षता और बहुपरकारीता में है, जो बहु-मोडल मॉडल विकास में एक महत्वपूर्ण अंतर को भरता है। स्वतंत्र निर्माण और समझ मॉड्यूल की आवश्यकता को समाप्त करके, JanusFlow शोधकर्ताओं और डेवलपर्स को एकल ढांचे का उपयोग करके कई कार्यों को संभालने की अनुमति देता है, जिससे जटिलता और संसाधन उपयोग में महत्वपूर्ण कमी आती है।

बेंचमार्क परिणाम दिखाते हैं कि JanusFlow ने MMBench, SeedBench और GQA पर क्रमशः 74.9, 70.5 और 60.3 अंक प्राप्त किए, जो कई मौजूदा एकीकृत मॉडलों से बेहतर प्रदर्शन करते हैं। चित्र निर्माण में, JanusFlow ने SDv1.5 और SDXL को पार कर लिया, MJHQ FID-30k पर 9.51 अंक और GenEval पर 0.63 अंक प्राप्त किए। ये मापदंड उच्च गुणवत्ता वाले चित्र उत्पन्न करने और जटिल बहु-मोडल कार्यों को संभालने में इसकी उत्कृष्ट क्षमता को दर्शाते हैं, और केवल 1.3B पैरामीटर की आवश्यकता होती है।

image.png

निष्कर्ष यह है कि JanusFlow एकीकृत एआई मॉडल के विकास में एक महत्वपूर्ण कदम बढ़ाता है, जो चित्र समझ और निर्माण दोनों को एक साथ कर सकता है। इसका सरल दृष्टिकोण - आत्म-प्रतिस्थापित क्षमताओं और सुधारित प्रवाह को एकीकृत करने पर ध्यान केंद्रित करना - न केवल प्रदर्शन में सुधार करता है, बल्कि मॉडल आर्किटेक्चर को भी सरल बनाता है, जिससे यह अधिक प्रभावी और सुलभ हो जाता है।

दृश्य कोडर को अलग करके और प्रशिक्षण प्रक्रिया में प्रतिनिधित्व को संरेखित करके, JanusFlow चित्र समझ और निर्माण के बीच एक पुल बनाने में सफल रहा है। जैसे-जैसे एआई अनुसंधान मॉडल की क्षमताओं की सीमाओं को पार करता है, JanusFlow एक अधिक सामान्य और बहुपरकारी बहु-मोडल एआई प्रणाली बनाने की दिशा में एक महत्वपूर्ण मील का पत्थर दर्शाता है।

मॉडल: https://huggingface.co/deepseek-ai/JanusFlow-1.3B

पत्र: https://arxiv.org/abs/2411.07975

मुख्य बिंदु:

🌟 JanusFlow एक एकीकृत ढांचा है, जो चित्र समझ और निर्माण को एक मॉडल में समाहित करता है, दक्षता और कार्यक्षमता को बढ़ाता है।  

📈 यह ढांचा कई बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन करता है, विशेष रूप से उच्च गुणवत्ता वाले चित्र निर्माण में, कई मौजूदा मॉडलों को पार करता है।  

🔧 JanusFlow दृश्य कोडर को अलग करके कार्यों के बीच हस्तक्षेप से बचता है और समग्र आर्किटेक्चर को सरल बनाता है।