V-Express est un modèle de génération de vidéos d'avatars développé par les laboratoires IA de Tencent. Il équilibre différents signaux de contrôle grâce à une série d'opérations de suppression progressive, permettant ainsi de générer des vidéos tenant compte simultanément de la posture, de l'image d'entrée et de l'audio. Ce modèle a été spécialement optimisé pour les signaux audio faibles, résolvant ainsi les défis liés à la génération de vidéos d'avatars lorsque l'intensité des signaux de contrôle varie.