Show-o é um modelo de transformador único para compreensão e geração multimodal, capaz de lidar com legendagem de imagens, perguntas e respostas visuais, geração de imagem a partir de texto, reparo e extensão guiados por texto, e geração multimodal híbrida. Desenvolvido conjuntamente pelo Show Lab da Universidade Nacional de Singapura e pela ByteDance, utiliza as mais recentes tecnologias de aprendizado profundo para compreender e gerar dados de múltiplas modalidades, representando um grande avanço na área da inteligência artificial.