JoyVASA es una tecnología de animación de retratos impulsada por audio basada en modelos de difusión. Genera expresiones faciales dinámicas y movimientos de cabeza separando las expresiones faciales dinámicas de la representación facial 3D estática. Esta tecnología no solo mejora la calidad del video y la precisión de la sincronización de labios, sino que también se extiende a la animación facial de animales, admite múltiples idiomas y mejora la eficiencia del entrenamiento y la inferencia. Las principales ventajas de JoyVASA incluyen la capacidad de generar videos más largos, la generación de secuencias de movimiento independientes de la identidad del personaje y la renderización de animaciones de alta calidad.