CuMo बहुविध मॉडल वाले बड़े भाषा मॉडल (LLM) का एक विस्तारित आर्किटेक्चर है जो दृश्य एन्कोडर और MLP कनेक्टर में विरल टॉप-K गेटेड विशेषज्ञ मिश्रण (MoE) ब्लॉक को शामिल करके मॉडल की स्केलेबिलिटी को बेहतर बनाता है, साथ ही अनुमान के समय सक्रियण पैरामीटर को लगभग नहीं बढ़ाता है। CuMo पूर्व-प्रशिक्षित MLP ब्लॉक के बाद MoE ब्लॉक में प्रत्येक विशेषज्ञ को आरंभ करता है और विशेषज्ञों के संतुलित भार सुनिश्चित करने के लिए दृश्य निर्देश समायोजन चरण में सहायक नुकसान का उपयोग करता है। CuMo विभिन्न VQA और दृश्य निर्देश अनुसरण बेंचमार्क में अन्य समान मॉडल को पार करता है और पूरी तरह से ओपन-सोर्स डेटासेट पर प्रशिक्षित है।