छवि उत्पादन क्षेत्र में, उच्च संकल्प और यथार्थवादी छवियों के कार्य हमेशा कई चुनौतियों का सामना करते रहे हैं, विशेष रूप से पाठ से छवि के संश्लेषण की प्रक्रिया में। पारंपरिक उत्पादन विधियाँ ज्यादातर प्रसार मॉडल और परिवर्तनीय आत्म-प्रतिगामी (VAR) ढांचे पर निर्भर करती हैं।
हालांकि ये मॉडल उच्च गुणवत्ता वाली छवियाँ उत्पन्न कर सकते हैं, लेकिन उन्हें बहुत अधिक गणना संसाधनों की आवश्यकता होती है, जिससे वे वास्तविक समय के अनुप्रयोगों में पर्याप्त लचीले नहीं होते। इस बीच, VAR मॉडल अस्थिर संकेतों को संभालने में संचयी त्रुटियों को उत्पन्न करने के लिए प्रवृत्त होते हैं, जिससे उत्पन्न छवियों की बारीकियाँ खो जाती हैं, और इससे छवियों की वास्तविकता पर असर पड़ता है।
इन कमियों को दूर करने के लिए, बाइटडांस की शोध टीम ने "इन्फिनिटी" नामक एक नया ढांचा पेश किया, जिसका उद्देश्य पाठ से छवि संश्लेषण की दक्षता और गुणवत्ता को बढ़ाना है।
इन्फिनिटी ने पारंपरिक अनुक्रम स्तर के संकेतों के स्थान पर बिट स्तर के संकेतों को पेश किया, जिससे अधिक सूक्ष्मता के साथ प्रतिनिधित्व किया जा सका, जिससे मात्रात्मक त्रुटियों में काफी कमी आई और उत्पन्न छवियों की वास्तविकता में सुधार हुआ। इसके अलावा, इस ढांचे ने एक असीमित शब्दावली वर्गीकरणकर्ता (IVC) का उपयोग किया, जिसने संकेत शब्दावली को 2^64 तक बढ़ा दिया, जिससे मेमोरी और गणना की आवश्यकताओं में काफी कमी आई।
इन्फिनिटी आर्किटेक्चर मुख्य रूप से तीन भागों में बाँटा गया है: एक बिट स्तर का बहु-स्तरीय मात्रात्मक संकेतक, जो छवि विशेषताओं को बाइनरी संकेतों में परिवर्तित करता है, एक परिवर्तक-आधारित आत्म-प्रतिगामी मॉडल, जो पाठ संकेत और पूर्व आउटपुट के आधार पर अवशेषों की भविष्यवाणी करता है; और एक आत्म-सुधार तंत्र, जो प्रशिक्षण प्रक्रिया में यादृच्छिक बिट उलटने को पेश करता है, जिससे मॉडल की त्रुटियों के प्रति मजबूती बढ़ती है। शोध टीम ने LAION और OpenImages जैसे बड़े डेटा सेट का उपयोग करते हुए प्रशिक्षण किया, छवि के संकल्प को 256×256 से 1024×1024 तक धीरे-धीरे बढ़ाकर महत्वपूर्ण प्रगति प्राप्त की।
मूल्यांकन के बाद, इन्फिनिटी ने प्रमुख मानकों पर उत्कृष्ट प्रदर्शन प्रदर्शित किया, इसका GenEval स्कोर 0 है, Fréchet Inception Distance (FID) 3.48 तक कम हुआ, जिससे इसकी उत्पादन गति और गुणवत्ता में सुधार साबित हुआ। इन्फिनिटी 0.8 सेकंड में 1024×1024 के उच्च संकल्प वाली छवियाँ उत्पन्न कर सकता है, जो इसकी दक्षता और विश्वसनीयता को दर्शाता है। इस प्रणाली द्वारा उत्पन्न छवियाँ न केवल दृष्टिगत रूप से वास्तविक और विस्तृत होती हैं, बल्कि जटिल पाठ निर्देशों का सटीक उत्तर देने में भी सक्षम होती हैं, और उच्च मानव प्राथमिकता स्कोर प्राप्त करती हैं।
इन्फिनिटी का लॉन्च उच्च संकल्प पाठ से छवि संश्लेषण क्षेत्र में एक नए मानक का प्रतीक है, यह नवोन्मेषी डिज़ाइन के माध्यम से दीर्घकालिक विस्तारशीलता और बारीकी की गुणवत्ता की समस्याओं को हल करता है, और उत्पन्न एआई के आगे के विकास को बढ़ावा देता है।
पेपर: https://arxiv.org/abs/2412.04431
मुख्य बिंदु:
🌟 ** नवोन्मेषी ढांचा इन्फिनिटी:** बाइटडांस द्वारा पेश किया गया इन्फिनिटी ढांचा, बिट स्तर की संकेतकरण और असीमित शब्दावली वर्गीकरणकर्ता के माध्यम से उच्च संकल्प छवि उत्पादन की दक्षता को बढ़ाता है।
⚡ ** उत्कृष्ट प्रदर्शन:** इन्फिनिटी ने प्रमुख मूल्यांकन मानकों पर मौजूदा मॉडलों को पार किया, 0.8 सेकंड में 1024×1024 के उच्च गुणवत्ता वाले चित्र उत्पन्न कर सकता है।
🖼️ ** वास्तविक बारीकियाँ और प्रतिक्रिया क्षमता:** उत्पन्न छवियाँ न केवल दृष्टिगत रूप से वास्तविक होती हैं, बल्कि जटिल पाठ संकेतों का सटीक उत्तर देने में सक्षम होती हैं, जो उच्च मानव प्राथमिकता स्कोर प्रदर्शित करती हैं।