EchoMimic est un modèle avancé d'animation d'images de portraits capable de générer des vidéos de portraits réalistes à partir d'audio et/ou de points de repère faciaux sélectionnés. Grâce à une stratégie d'entraînement novatrice, il résout les problèmes d'instabilité potentiels des méthodes traditionnelles lors de l'utilisation d'une source audio, ainsi que les résultats non naturels pouvant résulter de l'utilisation de points clés faciaux. EchoMimic a fait l'objet de comparaisons exhaustives sur plusieurs ensembles de données publiques et auto-collectées, démontrant des performances exceptionnelles lors des évaluations quantitatives et qualitatives.