El equipo de Alibaba ha lanzado EMO, un marco para la generación de videos de retratos que puede crear videos de retratos con expresiones faciales ricas y posturas de cabeza. EMO utiliza una red de referencia para extraer características de imágenes de referencia y fotogramas de movimiento, procesa el audio mediante un codificador de audio preentrenado y lo incrusta, y combina ruido multi-frame y máscaras de área facial para generar videos. Los resultados experimentales muestran que EMO supera a los métodos existentes en términos de expresividad y realismo. Las posibles aplicaciones de este modelo mejorarán el nivel de la tecnología de generación de medios digitales y contenido virtual, pero también podrían utilizarse con fines delictivos.