MiniGPT-5 es una tecnología de generación visual-lingüística entrelazada basada en tokens generativos, capaz de generar simultáneamente descripciones de texto e imágenes relacionadas. Emplea una estrategia de entrenamiento en dos fases: la primera, un entrenamiento de generación multimodal sin descripción; y la segunda, un aprendizaje multimodal. El modelo ha obtenido buenos resultados en tareas de generación de diálogos multimodales.