बाइटडांस ने चीन और सिंगापुर के विश्वविद्यालयों की शोध टीमों के साथ मिलकर एक नया AI इमेज एडिटिंग सिस्टम, PhotoDoodle, लॉन्च किया है, जो इमेज क्रिएशन के बारे में हमारी समझ को फिर से परिभाषित कर रहा है। Flux.1 मॉडल पर आधारित यह इनोवेटिव तकनीक, कम सैंपल से आर्ट स्टाइल सीख सकती है और स्पेसिफिक एडिटिंग निर्देशों को सटीक रूप से पूरा कर सकती है, जिससे क्रिएटिव एक्सप्रेशन के लिए नए रास्ते खुलते हैं।
Flux.1 पर आधारित
PhotoDoodle का कोर शोध टीम द्वारा पहले विकसित किया गया OmniEditor सिस्टम है, जो चतुराई से LoRA (लो-रैंक एडेप्टिव) तकनीक का उपयोग करके जर्मन स्टार्टअप कंपनी Black Forest Labs के Flux.1 इमेज जेनरेशन मॉडल में सुधार करता है। इस तरीके में ओरिजिनल मॉडल के वेट को पूरी तरह से बदलने की ज़रूरत नहीं होती है, बल्कि छोटे स्पेशल मैट्रिक्स को जोड़कर सूक्ष्म कॉन्सेप्ट एडजस्टमेंट से लेकर पूरी स्टाइल ट्रांसफॉर्मेशन तक की क्षमता हासिल की जाती है।
इसके बाद, शोधकर्ताओं ने EditLoRA नामक वेरिएंट का उपयोग करके OmniEditor को ट्रेन किया ताकि वह अनोखी आर्ट स्टाइल को कॉपी कर सके। आर्टिस्ट्स के साथ मिलकर बनाए गए चुनिंदा इमेज पेयर्स के माध्यम से, सिस्टम हर आर्ट स्टाइल की बारीकियों को समझ पाता है।
PhotoDoodle मूल इमेज के कंपोज़िशन को बनाए रखते हुए मज़ेदार एलिमेंट्स जैसे राक्षस, मैजिक इफ़ेक्ट्स और डेकोरेटिव इलस्ट्रेशन जोड़ता है। | चित्र: Huang इत्यादि
"पोज़िशन एन्कोडिंग क्लोनिंग": तस्वीरों की एकरूपता बनाए रखना
PhotoDoodle का सबसे आकर्षक इनोवेशन "पोज़िशन एन्कोडिंग क्लोनिंग" तकनीक है। यह तकनीक AI को ओरिजिनल इमेज के हर पिक्सेल की सही जगह याद रखने में मदद करती है, जिससे नए एलिमेंट्स जोड़ते समय इमेज के कंपोज़िशन की पूर्णता बनी रहती है, और नए एलिमेंट्स बैकग्राउंड में स्वाभाविक रूप से घुल-मिल जाते हैं।
यह पारंपरिक इमेज एडिटिंग AI की एक प्रमुख समस्या को हल करता है: या तो पूरी इमेज की स्टाइल बदल जाती है, या केवल एक छोटे से हिस्से में ही एडिटिंग की जा सकती है, ओरिजिनल परस्पेक्टिव और बैकग्राउंड को बनाए रखते हुए नए डेकोरेटिव एलिमेंट्स को जोड़ना मुश्किल होता है। PhotoDoodle बिना किसी अतिरिक्त पैरामीटर ट्रेनिंग के यह काम कर लेता है, जिससे प्रोसेसिंग की दक्षता बहुत बढ़ जाती है।
PhotoDoodle विभिन्न आर्ट स्टाइल का उपयोग करके साधारण फ़ोटो को बदलता है - प्यारे कार्टून राक्षसों से लेकर हैंडड्रॉन लाइन्स और रंगीन इफ़ेक्ट्स तक। | चित्र: Huang इत्यादि
सिंगल इमेज ट्रेनिंग की ओर
असल टेस्ट में, PhotoDoodle "बिल्ली को थोड़ा सफ़ेद करो" से लेकर "इमारत पर चढ़ते हुए गुलाबी राक्षस को जोड़ो" जैसे मुश्किल निर्देशों को आसानी से पूरा करता है। मौजूदा तकनीकों की तुलना में, यह इमेज और टेक्स्ट डिस्क्रिप्शन सिमिलरिटी जैसे बेन्चमार्क टेस्ट में बेहतर प्रदर्शन करता है, चाहे वह स्पेसिफिक एडिटिंग हो या पूरी इमेज में बदलाव, यह दूसरे उत्पादों से कहीं आगे है।
मौजूदा AI इमेज एडिटिंग सिस्टम के साथ PhotoDoodle की तुलना से स्पेसिफिक प्रॉम्प्ट के एग्ज़ीक्यूशन क्वालिटी में अंतर साफ़ दिखाई देता है। | चित्र: Huang इत्यादि
फिलहाल, PhotoDoodle को नई स्टाइल सीखने के लिए दर्जनों इमेज पेयर्स और हज़ारों ट्रेनिंग स्टेप्स की ज़रूरत होती है। शोध टीम ने ज़्यादा कारगर सिंगल इमेज ट्रेनिंग तरीकों पर ध्यान केंद्रित किया है और छह अलग-अलग आर्ट स्टाइल और 300 से ज़्यादा इमेज पेयर्स वाला एक डेटासेट जारी किया है, संबंधित कोड GitHub पर ओपन सोर्स भी कर दिया गया है, जो भविष्य के शोध के लिए एक मज़बूत आधार प्रदान करता है।
पता:https://github.com/showlab/PhotoDoodle