डिज़्नी की शोध टीम ने हाल ही में एक नई छवि संपीड़न विधि पेश की है, जो ओपन-सोर्स Stable Diffusion V1.2 मॉडल का उपयोग करती है। यह विधि प्रतिस्पर्धियों की तुलना में कम बिटरेट पर अधिक वास्तविक छवियां उत्पन्न कर सकती है। इस नई विधि को "कोडेक" कहा जाता है, हालाँकि यह पारंपरिक JPEG और AV1 कोडेक की तुलना में कहीं अधिक जटिल है, लेकिन इसके प्रदर्शन ने सभी को चौंका दिया है।

image.png

शोध से पता चलता है कि नई विधि छवि विवरण की पुनर्प्राप्ति में अधिक उत्कृष्टता दिखाती है, जबकि आवश्यक प्रशिक्षण लागत भी काफी कम हो गई है। शोधकर्ताओं ने पाया कि मात्रात्मक त्रुटि (छवि संपीड़न की मुख्य प्रक्रिया) और शोर (डिफ्यूज़न मॉडल की मुख्य प्रक्रिया) बहुत समान हैं, इसलिए पारंपरिक मात्रात्मक छवियों को मूल छवियों के शोर संस्करण के रूप में देखा जा सकता है। इस प्रक्रिया में, लक्षित बिटरेट पर छवि को पुनर्निर्माण करने के लिए डिफ्यूज़न मॉडल की डिनोइज़िंग प्रक्रिया का उपयोग किया जाता है।

image.png

एक श्रृंखला के परीक्षणों में, डिज़्नी की नई विधि ने सटीकता और विवरण पुनर्प्राप्ति के मामले में पहले की छवि संपीड़न तकनीकों को पीछे छोड़ दिया। शोधकर्ताओं ने कहा कि उनकी विधि को डिफ्यूज़न मॉडल के लिए अतिरिक्त ट्यूनिंग की आवश्यकता नहीं है और यह मौजूदा आधार मॉडल का प्रभावी ढंग से उपयोग कर सकती है। इस नए प्रकार के कोडेक की उत्कृष्टता इस तथ्य में है कि यह वास्तविकता के पुनर्निर्माण में उत्कृष्ट प्रदर्शन करता है, हालाँकि कुछ मामलों में, यह "भ्रम" घटना उत्पन्न कर सकता है, जिसका अर्थ है कि उत्पन्न छवियों में ऐसे विवरण हो सकते हैं जो मूल छवि में मौजूद नहीं हैं।

हालांकि इस संपीड़न विधि का कलात्मक कार्यों और सामान्य तस्वीरों के प्रदर्शन पर कुछ प्रभाव है, लेकिन कुछ विवरण-आधारित अनुप्रयोगों में, जैसे कि अदालत के सबूत, चेहरे की पहचान डेटा और ऑप्टिकल कैरेक्टर रिकॉग्निशन (OCR) स्कैन, भ्रम घटना का संभावित जोखिम अधिक महत्वपूर्ण हो जाता है। वर्तमान में, हालांकि यह तकनीक अभी प्रारंभिक चरण में है, लेकिन AI द्वारा छवि संपीड़न तकनीक के विकास के साथ, इस क्षेत्र की चुनौतियाँ धीरे-धीरे प्रकट होंगी।

छवियों के भंडारण को अधिक प्रभावी बनाने के लिए, डिज़्नी टीम ने लंबे समय तक खोज करने के बाद इस नई तकनीक को पेश किया। उन्होंने Vimeo-90k डेटा सेट पर प्रशिक्षण दिया और कई डेटा सेट पर परीक्षण किया, परिणाम दर्शाते हैं कि यह विधि कई छवि गुणवत्ता संकेतकों पर पूर्व विधियों से बेहतर है। अंततः, शोधकर्ताओं ने उपयोगकर्ता अनुसंधान के माध्यम से भी पुष्टि की कि उनकी विधि व्यावहारिक अनुप्रयोगों में उत्कृष्टता दर्शाती है।

पेपर: https://studios.disneyresearch.com/app/uploads/2024/09/Lossy-Image-Compression-with-Foundation-Diffusion-Models-Supplementary-1.pdf

मुख्य बिंदु:

1. 🖼️ डिज़्नी की नई AI छवि संपीड़न तकनीक कम बिटरेट पर अधिक वास्तविक छवियां उत्पन्न कर सकती है।

2. ⚙️ यह विधि विवरण पुनर्प्राप्ति और प्रशिक्षण लागत में उत्कृष्ट है, और अतिरिक्त ट्यूनिंग की आवश्यकता नहीं है।

3. ⚠️ हालांकि प्रभावशाली है, यह मूल छवि के साथ असंगत विवरण उत्पन्न कर सकती है, जिसमें "भ्रम" का जोखिम होता है।