हाल ही में, हांगकांग विश्वविद्यालय और बाइटडांस की शोध टीम ने LlamaGen नामक एक नवोन्मेषी तकनीक जारी की है, जिसने बड़े भाषा मॉडल के मूल एक टोकन पूर्वानुमान पैटर्न को दृश्य जनरेशन क्षेत्र में लागू किया। उन्होंने छवि टोकनाइज़र के डिज़ाइन स्थान, छवि जनरेशन मॉडल की स्केलेबिलिटी विशेषताओं और इसके प्रशिक्षण डेटा की गुणवत्ता की फिर से समीक्षा करके एक नए प्रकार के छवि जनरेशन मॉडल का सफलतापूर्वक विकास किया, जिसे LlamaGen कहा जाता है।

image.png

उत्पाद प्रवेश:https://top.aibase.com/tool/llamagen

LlamaGen पारंपरिक छवि जनरेशन मॉडल के लिए एक क्रांतिकारी नवाचार है, यह साबित करता है कि भले ही दृश्य संकेतों के सामान्य पूर्वाग्रह के बिना, साधारण आत्म-प्रतिध्वनित मॉडल भी अग्रणी छवि जनरेशन प्रदर्शन प्राप्त कर सकते हैं, बशर्ते कि इसे उचित रूप से स्केल किया जाए। LlamaGen आत्म-प्रतिध्वनित मॉडल में Transformer के आउटपुट के अगले टोकन को पूर्वानुमान के रूप में उपयोग किया जाता है, और अगले टोकन के इनपुट के रूप में, LLaMA आर्किटेक्चर का उपयोग किया गया है, जबकि Diffusion मॉडल का उपयोग नहीं किया गया है। यह खोज छवि जनरेशन क्षेत्र में नई संभावनाएं और प्रेरणा लाती है, और भविष्य के छवि जनरेशन अनुसंधान के लिए नए विचार और दिशा प्रदान करती है।

LlamaGen की विशेषताएँ शामिल हैं:

छवि टोकनाइज़र: 16 गुना डाउनसैंपलिंग अनुपात, 0.94 की पुनर्निर्माण गुणवत्ता और 97% कोडबुक उपयोगिता के साथ एक छवि टोकनाइज़र पेश किया गया है, जो ImageNet बेंचमार्क पर उत्कृष्ट प्रदर्शन करता है।

image.png

 श्रेणी-आधारित छवि जनरेशन मॉडल: 111M से 3.1B पैरामीटर रेंज में श्रेणी-आधारित छवि जनरेशन मॉडल की एक श्रृंखला पेश की गई है, जिसने ImageNet256×256 बेंचमार्क पर 2.18 का FID प्राप्त किया है, जो लोकप्रिय विस्फोट मॉडल को पार करता है।

image.png

image.png

पाठ-आधारित छवि जनरेशन मॉडल: 775M पैरामीटर वाला पाठ-आधारित छवि जनरेशन मॉडल पेश किया गया है, जो LAION-COCO के दो चरणों के प्रशिक्षण के बाद उच्च गुणवत्ता वाली सौंदर्यपूर्ण छवियाँ उत्पन्न कर सकता है, और उत्कृष्ट दृश्य गुणवत्ता और पाठ संरेखण प्रदर्शन प्रदर्शित करता है।

image.png

सेवा ढांचा vllm: LLM सेवा ढांचे की प्रभावशीलता की पुष्टि की गई है, जिसने छवि जनरेशन मॉडल के अनुमानित गति को अनुकूलित करने में 326% से 414% की गति प्राप्त की है।

image.png

इस परियोजना में, शोध टीम ने दो प्रकार के छवि विभाजक, सात श्रेणी-आधारित जनरेशन मॉडल और दो पाठ-आधारित जनरेशन मॉडल जारी किए हैं, साथ ही ऑनलाइन डेमो और उच्च थ्रूपुट सेवा ढांचा प्रदान किया है। इन मॉडलों और उपकरणों की रिलीज़ ने डेवलपर्स और शोधकर्ताओं को समृद्ध संसाधन और उपकरण प्रदान किए हैं, जिससे वे LlamaGen तकनीक को बेहतर ढंग से समझ और लागू कर सकें।