चाइनीज टीम द्वारा विकसित MiniGPT-v2 दृश्य मॉडल ने GitHub पर 20,000 से अधिक सितारे प्राप्त किए हैं, जो कई दृश्य कार्यों को पूरा कर सकता है, जिसमें लक्ष्य वस्तु का वर्णन, दृश्य स्थिति निर्धारण और चित्र विवरण शामिल हैं। MiniGPT-v2 ने बहु-चरण प्रशिक्षण का उपयोग किया है, दृश्य प्रश्न उत्तर और ग्राउंड बेंचमार्क परीक्षण में उत्कृष्ट प्रदर्शन करते हुए, ViT दृश्य आधार पर आधारित है, और सरल मल्टी-मोडल निर्देशों के माध्यम से कुशलता से कार्यों को पूरा करता है।