JoyVASA est une technique d'animation de portraits pilotée par l'audio et basée sur un modèle de diffusion. Elle génère des mouvements faciaux et de tête en séparant les expressions faciales dynamiques de la représentation 3D statique du visage. Cette technique permet non seulement d'améliorer la qualité vidéo et la précision de la synchronisation labiale, mais aussi de s'étendre à l'animation faciale d'animaux, de prendre en charge plusieurs langues et d'améliorer l'efficacité de l'entraînement et de l'inférence. Les principaux avantages de JoyVASA incluent la capacité à générer des vidéos plus longues, la génération de séquences de mouvements indépendantes de l'identité du personnage et le rendu d'animations de haute qualité.