MiniGPT-5 est une technologie de génération visuelle linguistique entrelacée basée sur des jetons génératifs, capable de générer simultanément une description textuelle et l'image correspondante. Il adopte une stratégie d'entraînement en deux phases : une première phase d'entraînement multimodal sans description, et une seconde phase d'apprentissage multimodal. Ce modèle a obtenu de bons résultats sur les tâches de génération de dialogues multimodaux.