MiniGPT-5 ist eine auf generativen Tokens basierende, verflochtene visuelle Sprachgenerierungs-Technologie, die gleichzeitig Textbeschreibungen und dazugehörige Bilder generieren kann. Es verwendet eine zweistufige Trainingsstrategie: In der ersten Phase findet ein beschreibungsloses multimodales Generierungstraining statt, in der zweiten Phase ein multimodales Lernen. Das Modell erzielt gute Ergebnisse bei der Generierung multimodaler Dialoge.