बीजिंग ज़्हियुआन आर्टिफिशियल इंटेलिजेंस रिसर्च इंस्टीट्यूट (BAAI) ने हाल ही में एक पूरी तरह से नई बहुपरकार दृष्टि जनरेटिव मॉडल OmniGen लॉन्च करने की घोषणा की है, जो छवि जनरेशन के क्षेत्र में एक महत्वपूर्ण प्रगति का प्रतीक है। OmniGen मॉडल अपनी एकता, सरलता और क्रॉस-टास्क ज्ञान स्थानांतरण क्षमता के लिए प्रसिद्ध है, जो एक ही ढांचे के भीतर विभिन्न छवि जनरेशन कार्यों को संभालने में सक्षम है, जिसमें टेक्स्ट-टू-इमेज, इमेज संपादन, विषय-प्रेरित जनरेशन और दृश्य-शर्त जनरेशन शामिल हैं। इसके अलावा, OmniGen कुछ क्लासिक कंप्यूटर विज़न कार्यों जैसे छवि शोर हटाना और किनारे पहचानने को भी संभाल सकता है, जो इन कार्यों को छवि जनरेशन कार्यों में परिवर्तित करके किया जाता है।
OmniGen की मुख्य ताकत इसके सरल संरचना और उपयोगकर्ता-अनुकूल संचालन में है, उपयोगकर्ता सरल निर्देशों के माध्यम से जटिल छवि जनरेशन कार्यों को पूरा कर सकते हैं, बिना किसी अतिरिक्त प्लगइन या जटिल प्रक्रिया के कदमों की आवश्यकता के। इस एकीकृत प्रारूप की सीख OmniGen को विभिन्न कार्यों के बीच ज्ञान स्थानांतरित करने में सक्षम बनाती है, नए कार्यों और क्षेत्रों का सामना करने और नए कार्यों का प्रदर्शन करने में।
OmniGen मॉडल की क्षमताएँ केवल उपरोक्त तक सीमित नहीं हैं, बल्कि इसमें शोर हटाने और किनारे निकालने जैसी बुनियादी छवि प्रसंस्करण क्षमताएँ भी शामिल हैं। मॉडल का वज़न और कोड ओपन-सोर्स किया गया है, ताकि उपयोगकर्ता OmniGen की अधिक क्षमताओं का अन्वेषण कर सकें और आवश्यकता के अनुसार समायोजन कर सकें। ज़्हियुआन रिसर्च इंस्टीट्यूट ने एक बड़े पैमाने पर और विविध एकीकृत छवि जनरेशन डेटासेट X2I का निर्माण किया है, जिसमें लगभग 1 करोड़ छवियाँ शामिल हैं, जो भविष्य में ओपन-सोर्स की जाएगी, ताकि सामान्य छवि जनरेशन क्षेत्र के विकास को बढ़ावा मिल सके।
संबंधित लिंक:
पत्र: https://arxiv.org/pdf/2409.11340
कोड: https://github.com/VectorSpaceLab/OmniGen
डेमो: https://huggingface.co/spaces/Shitao/OmniGen