Show-o es un modelo de transformador único para la comprensión y generación multimodales, capaz de procesar subtitulado de imágenes, preguntas y respuestas visuales, generación de imágenes a partir de texto, reparación y expansión guiadas por texto, y generación multimodal híbrida. Desarrollado conjuntamente por Show Lab de la Universidad Nacional de Singapur y ByteDance, emplea las últimas técnicas de aprendizaje profundo para comprender y generar datos multimodales, representando un gran avance en el campo de la inteligencia artificial.