JoyHallo es un modelo de persona digital diseñado específicamente para la generación de videos en mandarín. Se creó el conjunto de datos jdh-Hallo a partir de 29 horas de videos en mandarín recopilados de empleados de JD Health International Co., Ltd. Este conjunto de datos abarca diferentes edades y estilos de habla, incluyendo conversaciones y temas médicos profesionales. El modelo JoyHallo utiliza el modelo chino wav2vec2 para la incrustación de características de audio, y propone una estructura semi-desacoplada para capturar la interrelación entre las características de los labios, las expresiones y la postura, mejorando la eficiencia del uso de la información y acelerando la velocidad de inferencia en un 14,3%. Además, JoyHallo también muestra un excelente rendimiento en la generación de videos en inglés, demostrando una capacidad de generación multilingüe excepcional.