Show-oは、画像キャプション、Visual Question Answering(VQA)、テキストから画像への生成、テキストによる修復と拡張、および混合モーダル生成を処理できる、多モーダル理解と生成のための単一トランスフォーマーモデルです。シンガポール国立大学Show Labとバイトダンス(ByteDance)が共同で開発され、最新の深層学習技術を採用しており、多様なモーダルデータの理解と生成が可能で、人工知能分野における大きな進歩です。