कृत्रिम बुद्धिमत्ता के क्षेत्र में, बाइटडांस के व्यावसायिक तकनीकी टीम की नवीनतम उपलब्धि इन्फिनिटी मॉडल, अपनी उत्कृष्ट प्रदर्शन और नवोन्मेषी तकनीक के साथ, आत्म-प्रतिगामी टेक्स्ट-से-इमेज क्षेत्र का नया राजा बन गया है। यह नया ओपन-सोर्स मॉडल न केवल इमेज जनरेशन गुणवत्ता में स्टेबल डिफ्यूजन 3 को पीछे छोड़ता है, बल्कि अनुमानित गति में भी महत्वपूर्ण लाभ प्रदर्शित करता है।

इन्फिनिटी मॉडल का मुख्य नवाचार बिटवाइज टोकन के आत्म-प्रतिगामी ढांचे का उपयोग करना है, जो अगले स्तर के रिज़ॉल्यूशन के +1 या -1 की भविष्यवाणी करके बारीक "बिटवाइज टोकन" बनाता है, जिससे मॉडल की उच्च आवृत्ति संकेतों को पकड़ने की क्षमता में महत्वपूर्ण सुधार होता है, और इस प्रकार अधिक विस्तृत विवरण वाली छवियों का निर्माण होता है। इसके अतिरिक्त, इन्फिनिटी मॉडल ने शब्दावली का विस्तार अनंत तक किया है, जिससे इमेज टोकनाइज़र के प्रतिनिधित्व क्षेत्र को बढ़ाया गया है और आत्म-प्रतिगामी टेक्स्ट-से-इमेज के प्रदर्शन की सीमा को बढ़ाया गया है।

image.png

प्रदर्शन तुलना में, इन्फिनिटी मॉडल आत्म-प्रतिगामी विधियों में उत्कृष्टता प्रदर्शित करता है, HART, LlamaGen, Emu3 जैसी विधियों को पीछे छोड़ता है, और मानव मूल्यांकन में 90% के करीब जीत दर के साथ HART मॉडल को हराता है। साथ ही, इन्फिनिटी ने SOTA के डिफ्यूजन मॉडल जैसे PixArt-Sigma, SD-XL, SD3-Medium को 75%, 80%, 65% की जीत दर से हराया, जिससे यह सिद्ध होता है कि यह समान आकार के मॉडलों में एक लाभ प्रदान करता है।

image.png

इन्फिनिटी मॉडल की एक और बड़ी विशेषता इसकी अच्छी स्केलिंग विशेषता है। मॉडल के आकार और प्रशिक्षण संसाधनों के投入 के साथ, मान्यता सेट हानि लगातार घटती है, और मान्यता सेट सटीकता स्थिरता से बढ़ती है। इसके अलावा, इन्फिनिटी ने बिट आत्म-सुधार तकनीक भी प्रस्तुत की है, जो मॉडल की आत्म-सुधार क्षमता को बढ़ाती है, और आत्म-प्रतिगामी अनुमान के दौरान संचयी त्रुटि समस्या को हल करती है।

image.png

अनुमानित गति में, इन्फिनिटी ने VAR की गति के लाभ को विरासत में लिया है, 2B मॉडल 1024x1024 की छवि केवल 0.8 सेकंड में उत्पन्न करता है, जो समान आकार के SD3-Medium से 3 गुना तेज है, और 12B के फ्लक्स देव से 14 गुना तेज है। 8B मॉडल समान आकार के SD3.5 से 7 गुना तेज है, और 20B मॉडल 1024x1024 की छवि को 3 सेकंड में उत्पन्न करता है, जो 12B के फ्लक्स देव से लगभग 4 गुना तेज है।

वर्तमान में, इन्फिनिटी मॉडल का प्रशिक्षण और अनुमान कोड, डेमो, मॉडल वजन GitHub रिपॉजिटरी पर उपलब्ध है, साथ ही उपयोगकर्ताओं के लिए मॉडल के प्रभाव का परीक्षण और मूल्यांकन करने के लिए वेबसाइट अनुभव भी प्रदान किया गया है।

प्रोजेक्ट पेज: https://foundationvision.github.io/infinity.project/