बाइटडांस ने चीन और सिंगापुर के विश्वविद्यालयों की शोध टीमों के साथ मिलकर एक नया AI इमेज एडिटिंग सिस्टम, PhotoDoodle, लॉन्च किया है, जो इमेज क्रिएशन के बारे में हमारी समझ को फिर से परिभाषित कर रहा है। Flux.1 मॉडल पर आधारित यह इनोवेटिव तकनीक, कम सैंपल से आर्ट स्टाइल सीख सकती है और स्पेसिफिक एडिटिंग निर्देशों को सटीक रूप से पूरा कर सकती है, जिससे क्रिएटिव एक्सप्रेशन के लिए नए रास्ते खुलते हैं।

Flux.1 पर आधारित

PhotoDoodle का कोर शोध टीम द्वारा पहले विकसित किया गया OmniEditor सिस्टम है, जो चतुराई से LoRA (लो-रैंक एडेप्टिव) तकनीक का उपयोग करके जर्मन स्टार्टअप कंपनी Black Forest Labs के Flux.1 इमेज जेनरेशन मॉडल में सुधार करता है। इस तरीके में ओरिजिनल मॉडल के वेट को पूरी तरह से बदलने की ज़रूरत नहीं होती है, बल्कि छोटे स्पेशल मैट्रिक्स को जोड़कर सूक्ष्म कॉन्सेप्ट एडजस्टमेंट से लेकर पूरी स्टाइल ट्रांसफॉर्मेशन तक की क्षमता हासिल की जाती है।

इसके बाद, शोधकर्ताओं ने EditLoRA नामक वेरिएंट का उपयोग करके OmniEditor को ट्रेन किया ताकि वह अनोखी आर्ट स्टाइल को कॉपी कर सके। आर्टिस्ट्स के साथ मिलकर बनाए गए चुनिंदा इमेज पेयर्स के माध्यम से, सिस्टम हर आर्ट स्टाइल की बारीकियों को समझ पाता है।

QQ20250226-092429.png

PhotoDoodle मूल इमेज के कंपोज़िशन को बनाए रखते हुए मज़ेदार एलिमेंट्स जैसे राक्षस, मैजिक इफ़ेक्ट्स और डेकोरेटिव इलस्ट्रेशन जोड़ता है। | चित्र: Huang इत्यादि

"पोज़िशन एन्कोडिंग क्लोनिंग": तस्वीरों की एकरूपता बनाए रखना

PhotoDoodle का सबसे आकर्षक इनोवेशन "पोज़िशन एन्कोडिंग क्लोनिंग" तकनीक है। यह तकनीक AI को ओरिजिनल इमेज के हर पिक्सेल की सही जगह याद रखने में मदद करती है, जिससे नए एलिमेंट्स जोड़ते समय इमेज के कंपोज़िशन की पूर्णता बनी रहती है, और नए एलिमेंट्स बैकग्राउंड में स्वाभाविक रूप से घुल-मिल जाते हैं।

यह पारंपरिक इमेज एडिटिंग AI की एक प्रमुख समस्या को हल करता है: या तो पूरी इमेज की स्टाइल बदल जाती है, या केवल एक छोटे से हिस्से में ही एडिटिंग की जा सकती है, ओरिजिनल परस्पेक्टिव और बैकग्राउंड को बनाए रखते हुए नए डेकोरेटिव एलिमेंट्स को जोड़ना मुश्किल होता है। PhotoDoodle बिना किसी अतिरिक्त पैरामीटर ट्रेनिंग के यह काम कर लेता है, जिससे प्रोसेसिंग की दक्षता बहुत बढ़ जाती है।

QQ20250226-092411.png

PhotoDoodle विभिन्न आर्ट स्टाइल का उपयोग करके साधारण फ़ोटो को बदलता है - प्यारे कार्टून राक्षसों से लेकर हैंडड्रॉन लाइन्स और रंगीन इफ़ेक्ट्स तक। | चित्र: Huang इत्यादि

सिंगल इमेज ट्रेनिंग की ओर

असल टेस्ट में, PhotoDoodle "बिल्ली को थोड़ा सफ़ेद करो" से लेकर "इमारत पर चढ़ते हुए गुलाबी राक्षस को जोड़ो" जैसे मुश्किल निर्देशों को आसानी से पूरा करता है। मौजूदा तकनीकों की तुलना में, यह इमेज और टेक्स्ट डिस्क्रिप्शन सिमिलरिटी जैसे बेन्चमार्क टेस्ट में बेहतर प्रदर्शन करता है, चाहे वह स्पेसिफिक एडिटिंग हो या पूरी इमेज में बदलाव, यह दूसरे उत्पादों से कहीं आगे है।

QQ20250226-092421.png

मौजूदा AI इमेज एडिटिंग सिस्टम के साथ PhotoDoodle की तुलना से स्पेसिफिक प्रॉम्प्ट के एग्ज़ीक्यूशन क्वालिटी में अंतर साफ़ दिखाई देता है। | चित्र: Huang इत्यादि

फिलहाल, PhotoDoodle को नई स्टाइल सीखने के लिए दर्जनों इमेज पेयर्स और हज़ारों ट्रेनिंग स्टेप्स की ज़रूरत होती है। शोध टीम ने ज़्यादा कारगर सिंगल इमेज ट्रेनिंग तरीकों पर ध्यान केंद्रित किया है और छह अलग-अलग आर्ट स्टाइल और 300 से ज़्यादा इमेज पेयर्स वाला एक डेटासेट जारी किया है, संबंधित कोड GitHub पर ओपन सोर्स भी कर दिया गया है, जो भविष्य के शोध के लिए एक मज़बूत आधार प्रदान करता है।

पता:https://github.com/showlab/PhotoDoodle