Développé par une équipe chinoise, le modèle visuel MiniGPT-v2 a récolté plus de 20 000 étoiles sur GitHub. Il est capable d'accomplir diverses tâches visuelles, notamment la description d'objets, la localisation visuelle et la génération de légendes d'images. MiniGPT-v2 utilise un entraînement en plusieurs étapes et excelle dans les tâches de question-réponse visuelle et les benchmarks de référence. Basé sur un backbone visuel ViT, il réalise des tâches efficacement grâce à des instructions multimodales simples.