VividTalk
Génère des vidéos de rap réalistes avec synchronisation labiale.
Produit OrdinaireImageAudio-pilotéGénération d'avatars
VividTalk est une technologie de génération d'avatars audio-pilotée unique, basée sur une approche 3D hybride a priori. Elle permet de générer des vidéos de rap réalistes avec des expressions faciales riches, des postures de tête naturelles et une synchronisation labiale parfaite. Cette technologie utilise un cadre générique à deux étapes, permettant la génération de vidéos de rap de haute qualité visuelle possédant toutes ces caractéristiques. Plus précisément, dans la première étape, l'audio est mappé sur une grille en apprenant deux types de mouvements (mouvements faciaux non rigides et mouvements de tête rigides). Pour les mouvements faciaux, des formes et des sommets hybrides sont utilisés comme représentation intermédiaire afin de maximiser la capacité de représentation du modèle. Pour les mouvements de tête naturels, un nouveau codebook d'apprentissage de posture de tête est proposé, ainsi qu'un mécanisme d'entraînement en deux étapes. Dans la deuxième étape, un VAE à double branche et un générateur sont proposés pour convertir la grille en un mouvement dense et synthétiser des vidéos de haute qualité image par image. De nombreuses expériences montrent que VividTalk est capable de générer des vidéos de rap de haute qualité visuelle avec synchronisation labiale et amélioration réaliste, surpassant les méthodes de pointe existantes dans les comparaisons objectives et subjectives. Le code de cette technologie sera publié après publication.
VividTalk Dernière situation du trafic
Nombre total de visites mensuelles
205728
Taux de rebond
53.28%
Nombre moyen de pages par visite
1.6
Durée moyenne de la visite
00:01:05