घरेलू बड़े मॉडल DeepSeek ने एक नया Janus-Pro मल्टीमोडल बड़े मॉडल लॉन्च किया है, जो आधिकारिक रूप से टेक्स्ट-टू-इमेज क्षेत्र में प्रवेश कर रहा है। यह कदम DeepSeek के मल्टीमोडल एआई तकनीक में एक महत्वपूर्ण प्रगति का प्रतीक है।
GenEval और DPG-Bench बेंचमार्क परीक्षणों में, Janus-Pro-7B ने न केवल OpenAI के DALL-E3 को हराया, बल्कि Stable Diffusion, Emu3-Gen जैसे लोकप्रिय मॉडलों को भी पीछे छोड़ दिया। Janus-Pro MIT ओपन-सोर्स लाइसेंस का उपयोग करता है, जिसका अर्थ है कि इसे व्यावसायिक परिदृश्यों में बिना किसी प्रतिबंध के उपयोग किया जा सकता है। DeepSeek ने कहा कि Janus-Pro 13 नवंबर 2024 को जारी होने वाले JanusFlow बड़े मॉडल का उन्नत संस्करण है।
पिछले मॉडल की तुलना में, Janus-Pro ने प्रशिक्षण रणनीति को अनुकूलित किया है, प्रशिक्षण डेटा का विस्तार किया है, और मॉडल का आकार भी बड़ा किया है। इन सुधारों ने Janus-Pro को मल्टीमोडल समझ और टेक्स्ट-टू-इमेज निर्देश ट्रैकिंग क्षमताओं में महत्वपूर्ण प्रगति करने में सक्षम बनाया है, जबकि टेक्स्ट-टू-इमेज उत्पादन की स्थिरता को भी बढ़ाया है।
हालांकि Janus-Pro वर्तमान में केवल 384x384 रिज़ॉल्यूशन की छवियों को संभाल सकता है, लेकिन इसके कॉम्पैक्ट मॉडल आकार को देखते हुए, इतनी ऊंचाई तक पहुंचना पहले से ही चौंकाने वाला है।
एक मल्टीमोडल मॉडल के रूप में, Janus-Pro न केवल छवियों को उत्पन्न कर सकता है, बल्कि छवियों का वर्णन भी कर सकता है, स्थलों की पहचान कर सकता है, छवियों में पाठ की पहचान कर सकता है, और छवियों में ज्ञान का परिचय दे सकता है।
मुख्य बिंदु:
🌟 DeepSeek ने Janus-Pro मल्टीमोडल बड़े मॉडल को जारी किया, टेक्स्ट-टू-इमेज क्षेत्र में प्रवेश किया।
📈 बेंचमार्क परीक्षणों में, Janus-Pro-7B ने OpenAI के DALL-E3 जैसे लोकप्रिय मॉडलों को पीछे छोड़ दिया।
✅ Janus-Pro MIT ओपन-सोर्स लाइसेंस का उपयोग करता है, जो व्यावसायिक परिदृश्यों में बिना किसी प्रतिबंध के उपयोग की अनुमति देता है।