हाल ही में, हांगकांग विश्वविद्यालय और बाइटडांस की शोध टीम ने LlamaGen नामक एक नवोन्मेषी तकनीक जारी की है, जिसने बड़े भाषा मॉडल के मूल एक टोकन पूर्वानुमान पैटर्न को दृश्य जनरेशन क्षेत्र में लागू किया। उन्होंने छवि टोकनाइज़र के डिज़ाइन स्थान, छवि जनरेशन मॉडल की स्केलेबिलिटी विशेषताओं और इसके प्रशिक्षण डेटा की गुणवत्ता की फिर से समीक्षा करके एक नए प्रकार के छवि जनरेशन मॉडल का सफलतापूर्वक विकास किया, जिसे LlamaGen कहा जाता है।
उत्पाद प्रवेश:https://top.aibase.com/tool/llamagen
LlamaGen पारंपरिक छवि जनरेशन मॉडल के लिए एक क्रांतिकारी नवाचार है, यह साबित करता है कि भले ही दृश्य संकेतों के सामान्य पूर्वाग्रह के बिना, साधारण आत्म-प्रतिध्वनित मॉडल भी अग्रणी छवि जनरेशन प्रदर्शन प्राप्त कर सकते हैं, बशर्ते कि इसे उचित रूप से स्केल किया जाए। LlamaGen आत्म-प्रतिध्वनित मॉडल में Transformer के आउटपुट के अगले टोकन को पूर्वानुमान के रूप में उपयोग किया जाता है, और अगले टोकन के इनपुट के रूप में, LLaMA आर्किटेक्चर का उपयोग किया गया है, जबकि Diffusion मॉडल का उपयोग नहीं किया गया है। यह खोज छवि जनरेशन क्षेत्र में नई संभावनाएं और प्रेरणा लाती है, और भविष्य के छवि जनरेशन अनुसंधान के लिए नए विचार और दिशा प्रदान करती है।
LlamaGen की विशेषताएँ शामिल हैं:
छवि टोकनाइज़र: 16 गुना डाउनसैंपलिंग अनुपात, 0.94 की पुनर्निर्माण गुणवत्ता और 97% कोडबुक उपयोगिता के साथ एक छवि टोकनाइज़र पेश किया गया है, जो ImageNet बेंचमार्क पर उत्कृष्ट प्रदर्शन करता है।
श्रेणी-आधारित छवि जनरेशन मॉडल: 111M से 3.1B पैरामीटर रेंज में श्रेणी-आधारित छवि जनरेशन मॉडल की एक श्रृंखला पेश की गई है, जिसने ImageNet256×256 बेंचमार्क पर 2.18 का FID प्राप्त किया है, जो लोकप्रिय विस्फोट मॉडल को पार करता है।
पाठ-आधारित छवि जनरेशन मॉडल: 775M पैरामीटर वाला पाठ-आधारित छवि जनरेशन मॉडल पेश किया गया है, जो LAION-COCO के दो चरणों के प्रशिक्षण के बाद उच्च गुणवत्ता वाली सौंदर्यपूर्ण छवियाँ उत्पन्न कर सकता है, और उत्कृष्ट दृश्य गुणवत्ता और पाठ संरेखण प्रदर्शन प्रदर्शित करता है।
सेवा ढांचा vllm: LLM सेवा ढांचे की प्रभावशीलता की पुष्टि की गई है, जिसने छवि जनरेशन मॉडल के अनुमानित गति को अनुकूलित करने में 326% से 414% की गति प्राप्त की है।
इस परियोजना में, शोध टीम ने दो प्रकार के छवि विभाजक, सात श्रेणी-आधारित जनरेशन मॉडल और दो पाठ-आधारित जनरेशन मॉडल जारी किए हैं, साथ ही ऑनलाइन डेमो और उच्च थ्रूपुट सेवा ढांचा प्रदान किया है। इन मॉडलों और उपकरणों की रिलीज़ ने डेवलपर्स और शोधकर्ताओं को समृद्ध संसाधन और उपकरण प्रदान किए हैं, जिससे वे LlamaGen तकनीक को बेहतर ढंग से समझ और लागू कर सकें।