MiniGPT-5は、生成トークンに基づくインタリーブ型視覚言語生成技術を採用しており、テキストの説明とそれに関連する画像を同時に生成できます。二段階の学習戦略を用いており、第一段階は無記述のマルチモーダル生成学習、第二段階はマルチモーダル学習を行います。このモデルは、マルチモーダル対話生成タスクにおいて良好な結果を達成しています。