JoyHallo é um modelo de pessoa digital projetado especificamente para a geração de vídeos em mandarim. Ele foi criado com base no conjunto de dados jdh-Hallo, compilado a partir de 29 horas de vídeos em mandarim de funcionários da JD Health International Co., Ltd. Este conjunto de dados abrange diferentes faixas etárias e estilos de fala, incluindo conversas e tópicos médicos profissionais. O modelo JoyHallo utiliza o modelo chinês wav2vec2 para incorporação de recursos de áudio e apresenta uma estrutura semi-desacoplada para capturar a interação entre os recursos labiais, expressões faciais e postura, melhorando a eficiência do uso da informação e acelerando a velocidade de inferência em 14,3%. Além disso, o JoyHallo também apresenta um desempenho excepcional na geração de vídeos em inglês, demonstrando sua excelente capacidade de geração multilíngue.