Loopy es un modelo de difusión de vídeo impulsado por audio de extremo a extremo. Diseñado con módulos temporales para clips cruzados y clips internos, así como un módulo de audio a representación latente, permite al modelo aprovechar la información de movimiento a largo plazo en los datos para aprender patrones de movimiento natural y mejorar la correlación entre el audio y el movimiento del retrato. Este método elimina la necesidad de plantillas de movimiento espacial especificadas manualmente presentes en los métodos existentes, logrando resultados más realistas y de alta calidad en diversas situaciones.