हाल ही में, NVIDIA ने नई पीढ़ी के ओपन विज़ुअल लैंग्वेज मॉडल - NVILA का अनावरण किया। यह सटीकता और दक्षता को अनुकूलित करने के लिए बनाया गया है, और उत्कृष्ट प्रदर्शन के साथ, यह विज़ुअल एआई क्षेत्र में एक प्रमुख बन गया है।
NVIDIA के अनुसार, NVILA ने प्रशिक्षण लागत में 4.5 गुना कमी की है, जबकि फाइन-ट्यूनिंग के लिए आवश्यक मेमोरी 3.4 गुना कम हो गई है, और प्री-फिलिंग और डिकोडिंग की देरी में लगभग 2 गुना कमी आई है। ये आंकड़े एक अन्य बड़े विज़ुअल मॉडल LLaVa OneVision के साथ तुलना करके प्राप्त किए गए हैं।
वीडियो बेंचमार्किंग में, NVILA ने GPT4o Mini को पार कर लिया है, और GPT4o, Sonnet3.5 और Gemini1.5Pro के साथ तुलना में भी उत्कृष्ट प्रदर्शन किया है। इसके अलावा, NVILA ने Llama3.2 के साथ तुलना में थोड़ा बढ़त हासिल की है। फिर भी, NVIDIA ने कहा कि इस मॉडल को वर्तमान में Hugging Face प्लेटफॉर्म पर जारी नहीं किया गया है, और उन्होंने वादा किया है कि वे जल्दी ही कोड और मॉडल जारी करेंगे, ताकि मॉडल की पुनरुत्पादनीयता को बढ़ावा दिया जा सके।
NVIDIA ने बताया कि विज़ुअल लैंग्वेज मॉडल का प्रशिक्षण लागत बहुत अधिक है, 7B पैरामीटर के विज़ुअल लैंग्वेज मॉडल को प्रशिक्षित करने में लगभग 400 GPU दिन लगते हैं। साथ ही, ऐसे मॉडल को फाइन-ट्यून करना भी बहुत मेमोरी खपत करता है, 7B पैरामीटर के मॉडल को 64GB से अधिक GPU मेमोरी की आवश्यकता होती है।
इसलिए, NVIDIA ने "पहले विस्तारित फिर संकुचित" नामक तकनीक का उपयोग किया, जिसका उद्देश्य मॉडल की सटीकता और दक्षता के बीच संतुलन बनाना है। यह मॉडल फोटो और वीडियो के आकार को कम करके इनपुट को संकुचित नहीं करता है, बल्कि उच्च रिज़ॉल्यूशन वाले चित्रों और वीडियो के कई फ्रेम का उपयोग करता है, ताकि कोई विवरण खो न जाए।
संकुचन की प्रक्रिया में, मॉडल दृश्य जानकारी को कम टोकन में संकुचित करके इनपुट डेटा के आकार को कम करता है, और महत्वपूर्ण जानकारी को बनाए रखने के लिए पिक्सेल को समूहित करता है। NVIDIA ने अपने पेपर में उल्लेख किया है कि डबल रिज़ॉल्यूशन दृश्य टोकनों की संख्या को दोगुना कर देगा, जिससे प्रशिक्षण और अनुमान लागत 2 गुना से अधिक बढ़ जाएगी। इसलिए, उन्होंने इस हिस्से की लागत को कम करने के लिए स्पेस/टाइम टोकन को संकुचित किया।
NVIDIA ने मॉडल के प्रदर्शन को भी प्रदर्शित किया, NVILA एक चित्र या वीडियो के आधार पर कई प्रश्नों का उत्तर देने में सक्षम है। इसका आउटपुट NVIDIA द्वारा पहले जारी किए गए VILA1.5 मॉडल के साथ भी तुलना की गई। इसके अलावा, NVIDIA ने कुछ अन्य तकनीकों का भी विस्तार से वर्णन किया, जैसे डायनामिक S2 विस्तार, डेल्टा लॉस आधारित डेटा सेट छंटाई, FP8 सटीकता का उपयोग करके क्वांटाइजेशन आदि।
ये तकनीकें 8B पैरामीटर के मॉडल पर लागू की गई हैं, और विशिष्ट विवरण Arxiv पर देखे जा सकते हैं।
पेपर का लिंक: https://arxiv.org/pdf/2412.04468
मुख्य बिंदु:
🌟 NVILA मॉडल ने प्रशिक्षण लागत में 4.5 गुना कमी की है, और विज़ुअल एआई की दक्षता को बढ़ाया है।
📉 उच्च रिज़ॉल्यूशन चित्रों और वीडियो फ्रेम के माध्यम से, NVILA ने इनपुट जानकारी की संपूर्णता सुनिश्चित की है।
📊 NVIDIA ने वादा किया है कि वे जल्दी ही कोड और मॉडल जारी करेंगे, ताकि अनुसंधान की पुनरुत्पादनीयता को बढ़ावा दिया जा सके।