MEMO es un modelo de peso abierto avanzado para la generación de videos de personas hablando impulsados por audio. El modelo mejora la consistencia de identidad a largo plazo y la suavidad del movimiento a través de un módulo temporal guiado por memoria y un módulo de audio con percepción de emociones, al mismo tiempo que refina las expresiones faciales mediante la detección de emociones en el audio, generando videos de personas hablando consistentes en su identidad y ricos en expresiones. Las principales ventajas de MEMO incluyen una generación de video más realista, una mejor sincronización de audio y labios, consistencia de identidad y alineación de expresiones y emociones. La información de antecedentes técnicos muestra que MEMO genera videos de personas hablando más realistas en una variedad de tipos de imágenes y audio, superando los métodos más avanzados existentes.