GenWarp é um modelo para gerar imagens de novas perspectivas a partir de uma única imagem. Através de uma estrutura de deformação generativa com preservação semântica, permite que modelos de geração de imagem a partir de texto aprendam onde deformar e onde gerar. O modelo resolve as limitações dos métodos existentes através do aprimoramento da atenção cruzada entre perspectivas e da autoatenção, condicionalizando o modelo gerador na imagem da visão de origem e incorporando sinais de deformação geométrica, melhorando o desempenho em diferentes cenários e domínios.