EchoMimicV2 est une technologie d'animation corporelle en buste développée par le département des technologies terminales d'Ant Group (Alipay). Elle génère des vidéos d'animation de haute qualité à partir d'images de référence, de clips audio et d'une série de gestes, assurant la cohérence entre le contenu audio et les mouvements du buste. Cette technologie simplifie les processus de création d'animation complexes existants. Grâce à une stratégie de coordination dynamique Audio-Pose, incluant l'échantillonnage de pose et la diffusion audio, elle améliore l'expressivité des détails du buste, du visage et des gestes, tout en réduisant la redondance des conditions. De plus, elle utilise un mécanisme d'attention partielle de la tête pour intégrer de manière transparente les données de la tête dans le cadre d'entraînement. Ce mécanisme peut être omis lors de l'inférence, ce qui facilite la création d'animations. EchoMimicV2 intègre également une perte de débruitage spécifique à chaque étape pour guider le mouvement, les détails et la qualité basse niveau de l'animation à chaque étape. Cette technologie surpasse les méthodes existantes lors des évaluations quantitatives et qualitatives, démontrant son leadership dans le domaine de l'animation corporelle en buste.