मिनी-जेमिनी एक बहुविधा दृश्य भाषा मॉडल है जो 2B से 34B तक की श्रृंखला के सघन और MoE विशाल भाषा मॉडल का समर्थन करता है, साथ ही इसमें छवि समझ, तर्क और उत्पादन करने की क्षमता भी है। यह LLaVA पर आधारित है, जो कम रिज़ॉल्यूशन दृश्य एम्बेडिंग और उच्च रिज़ॉल्यूशन संभावित क्षेत्र प्रदान करने के लिए दोहरे दृश्य एन्कोडर का उपयोग करता है, और उच्च रिज़ॉल्यूशन क्षेत्रों और कम रिज़ॉल्यूशन दृश्य क्वेरी के बीच पैच-स्तरीय खनन करने के लिए पैच जानकारी खनन को नियोजित करता है, पाठ और छवियों को समझ और उत्पादन कार्यों के लिए मिलाता है। यह COCO, GQA, OCR-VQA, VisualGenome जैसे कई दृश्य समझ बेंचमार्क का समर्थन करता है।