中国人チームが開発したMiniGPT-v2ビジョンモデルは、GitHubで2万を超えるスターを獲得しており、オブジェクト記述、視覚的ローカリゼーション、画像キャプション生成など、さまざまなビジョンタスクを実行できます。MiniGPT-v2はマルチステージトレーニングを採用しており、ビジュアルクエスチョン解答とグラウンデッドベンチマークテストで優れたパフォーマンスを発揮します。ViTビジョンバックボーンをベースとし、シンプルなマルチモーダル指示によって効率的なタスク完了を実現しています。