Une équipe de recherche de l'Université de Toronto et de l'Institut Vectoriel a récemment publié le modèle CAP4D, une nouvelle technologie basée sur un modèle de diffusion multi-vues déformable (MMDM) capable de générer des avatars 4D réalistes à partir d'un nombre quelconque d'images de référence.

Ce modèle utilise une méthode en deux étapes : il utilise d'abord le MMDM pour générer des images sous différents angles et avec différentes expressions, puis combine ces images générées avec les images de référence pour reconstruire un avatar 4D contrôlable en temps réel.

Dans le processus de travail de CAP4D, l'utilisateur peut saisir un nombre quelconque d'images de référence, qui seront codées dans l'espace latent d'un auto-encodeur variationnel. Ensuite, la technologie de suivi facial FlowFace est utilisée pour estimer le modèle de déformation 3D (FLAME) de chaque image de référence, à partir duquel des informations telles que la posture de la tête, les expressions et l'angle de la caméra sont extraites. Le MMDM génère ensuite plusieurs images différentes à chaque itération du processus de génération, en combinant les images de référence saisies.

image.png

L'équipe de recherche a présenté divers avatars générés par CAP4D, couvrant des scénarios allant d'une seule image de référence, à un petit nombre d'images de référence, et à des scénarios plus complexes de génération d'avatars à partir d'invites textuelles ou d'œuvres d'art. L'utilisation de plusieurs images de référence permet de restituer des détails et des formes géométriques invisibles sur une seule image, améliorant ainsi les résultats de la reconstruction. De plus, CAP4D peut être combiné avec des modèles d'édition d'images existants, permettant à l'utilisateur de modifier l'apparence et l'éclairage de l'avatar généré.

image.png

Pour améliorer encore l'expressivité de l'avatar, CAP4D peut combiner l'avatar 4D généré avec un modèle d'animation piloté par la voix, permettant des effets d'animation pilotés par l'audio. Cela permet à l'avatar non seulement de présenter des effets visuels statiques, mais aussi d'interagir dynamiquement avec l'utilisateur par le son, ouvrant de nouveaux horizons pour les applications d'avatars virtuels.

Points clés :

🌟 Le modèle CAP4D peut générer des avatars 4D de haute qualité à partir d'un nombre quelconque d'images de référence, en utilisant un processus de travail en deux étapes.

🖼️ Cette technologie permet de générer des avatars sous différents angles, améliorant considérablement la reconstruction de l'image et la présentation des détails.

🎤 CAP4D, combiné à un modèle d'animation piloté par la voix, permet des avatars dynamiques pilotés par l'audio, élargissant ainsi les applications des avatars virtuels.