बीजिंग ज़्हियुआन आर्टिफिशियल इंटेलिजेंस रिसर्च इंस्टीट्यूट (BAAI) ने हाल ही में एक पूरी तरह से नई बहुपरकार दृष्टि जनरेटिव मॉडल OmniGen लॉन्च करने की घोषणा की है, जो छवि जनरेशन के क्षेत्र में एक महत्वपूर्ण प्रगति का प्रतीक है। OmniGen मॉडल अपनी एकता, सरलता और क्रॉस-टास्क ज्ञान स्थानांतरण क्षमता के लिए प्रसिद्ध है, जो एक ही ढांचे के भीतर विभिन्न छवि जनरेशन कार्यों को संभालने में सक्षम है, जिसमें टेक्स्ट-टू-इमेज, इमेज संपादन, विषय-प्रेरित जनरेशन और दृश्य-शर्त जनरेशन शामिल हैं। इसके अलावा, OmniGen कुछ क्लासिक कंप्यूटर विज़न कार्यों जैसे छवि शोर हटाना और किनारे पहचानने को भी संभाल सकता है, जो इन कार्यों को छवि जनरेशन कार्यों में परिवर्तित करके किया जाता है।

微信截图_20241029103628.png

OmniGen की मुख्य ताकत इसके सरल संरचना और उपयोगकर्ता-अनुकूल संचालन में है, उपयोगकर्ता सरल निर्देशों के माध्यम से जटिल छवि जनरेशन कार्यों को पूरा कर सकते हैं, बिना किसी अतिरिक्त प्लगइन या जटिल प्रक्रिया के कदमों की आवश्यकता के। इस एकीकृत प्रारूप की सीख OmniGen को विभिन्न कार्यों के बीच ज्ञान स्थानांतरित करने में सक्षम बनाती है, नए कार्यों और क्षेत्रों का सामना करने और नए कार्यों का प्रदर्शन करने में।

OmniGen मॉडल की क्षमताएँ केवल उपरोक्त तक सीमित नहीं हैं, बल्कि इसमें शोर हटाने और किनारे निकालने जैसी बुनियादी छवि प्रसंस्करण क्षमताएँ भी शामिल हैं। मॉडल का वज़न और कोड ओपन-सोर्स किया गया है, ताकि उपयोगकर्ता OmniGen की अधिक क्षमताओं का अन्वेषण कर सकें और आवश्यकता के अनुसार समायोजन कर सकें। ज़्हियुआन रिसर्च इंस्टीट्यूट ने एक बड़े पैमाने पर और विविध एकीकृत छवि जनरेशन डेटासेट X2I का निर्माण किया है, जिसमें लगभग 1 करोड़ छवियाँ शामिल हैं, जो भविष्य में ओपन-सोर्स की जाएगी, ताकि सामान्य छवि जनरेशन क्षेत्र के विकास को बढ़ावा मिल सके।

संबंधित लिंक:

पत्र: https://arxiv.org/pdf/2409.11340

कोड: https://github.com/VectorSpaceLab/OmniGen

डेमो: https://huggingface.co/spaces/Shitao/OmniGen