CyberHost é um framework de animação corporal acionado por áudio de ponta a ponta que, por meio de um mecanismo de atenção de código de livro regional, permite a geração de integridade de mãos, consistência de identidade e movimento natural. O modelo utiliza uma arquitetura de duplo U-Net como estrutura básica e, por meio de uma estratégia de frames de movimento, realiza a continuação temporal, estabelecendo uma linha de base para a animação corporal acionada por áudio. O CyberHost, por meio de uma série de estratégias de treinamento orientadas para pessoas, incluindo mapas de movimento corporal, pontuação de clareza das mãos, características de referência de alinhamento de postura e supervisão de aumento local, aprimora a qualidade dos resultados de síntese. O CyberHost é o primeiro modelo de difusão corporal acionado por áudio capaz de gerar vídeos de amostra zero em escala corporal.