CyberHost est un framework d'animation corporelle pilotée par l'audio de bout en bout. Grâce à un mécanisme d'attention de codebook régional, il permet la génération d'animations corporelles complètes, cohérentes et naturelles. Le modèle utilise une architecture double U-Net comme structure de base et emploie une stratégie d'images clés pour assurer la continuité temporelle, établissant ainsi une référence pour l'animation corporelle pilotée par l'audio. CyberHost améliore la qualité des résultats de synthèse grâce à une série de stratégies d'entraînement centrées sur l'humain, comprenant des cartes de mouvement corporel, un score de netteté des mains, des caractéristiques de référence d'alignement de pose et une supervision d'amélioration locale. CyberHost est le premier modèle de diffusion corporelle piloté par l'audio capable de générer des vidéos en zéro-shot à l'échelle corporelle.