कोला
बड़ा भाषा मॉडल दृश्य तर्क समन्वयक है
सामान्य उत्पादउत्पादकताभाषा मॉडलदृश्य तर्क
कोला दो या अधिक दृश्य-भाषा मॉडल (VLM) आउटपुट को एकत्रित करने के लिए भाषा मॉडल (LM) का उपयोग करने का एक तरीका है। हमारी मॉडल असेंबली विधि को कोला (COordinative LAnguage model or visual reasoning) कहा जाता है। कोला LM माइक्रोट्यूनिंग (जिसे कोला-FT कहा जाता है) के दौरान सबसे अच्छा प्रदर्शन करता है। कोला शून्य-शॉट या कम-शॉट संदर्भ अधिगम (जिसे कोला-ज़ीरो कहा जाता है) में भी प्रभावी है। प्रदर्शन में वृद्धि के अलावा, कोला VLM की त्रुटियों के प्रति अधिक मज़बूत है। हम दिखाते हैं कि कोला विभिन्न VLM (जिनमें बड़े बहु-मोडल मॉडल जैसे InstructBLIP शामिल हैं) और 7 डेटासेट (VQA v2, OK-VQA, A-OKVQA, e-SNLI-VE, VSR, CLEVR, GQA) पर लागू किया जा सकता है, और यह हमेशा प्रदर्शन में सुधार करता है।
कोला नवीनतम ट्रैफ़िक स्थिति
मासिक कुल विज़िट
474564576
बाउंस दर
36.20%
प्रति विज़िट औसत पृष्ठ
6.1
औसत विज़िट अवधि
00:06:34