Ces dernières années, avec le développement rapide de l'intelligence artificielle et de la vision par ordinateur, l'interaction entre l'homme et l'ordinateur est devenue de plus en plus vivante et expressive. Dans le domaine de la création d'animations en particulier, la génération de vidéos dynamiques à partir d'images statiques est un sujet de recherche phare.
Récemment, une nouvelle technologie nommée « DisPose » a vu le jour. Elle permet une animation d'images de personnages plus contrôlable grâce à un découplage de la guidance de la pose. En termes simples, DisPose permet, en entrant une vidéo d'actions et un personnage de référence, de faire reproduire au personnage de référence les actions de la vidéo.
Le cœur de la technologie DisPose réside dans la reconstruction et l'utilisation d'informations de pose clairsemées traditionnelles. Les méthodes traditionnelles reposent souvent sur une guidance de pose squelettique clairsemée, ce qui, lors de la génération de vidéos dynamiques, ne fournit souvent pas suffisamment de signaux de contrôle, entraînant des animations peu précises. Pour pallier ce manque, DisPose propose une nouvelle méthode qui transforme les informations de pose clairsemées en guidance de champ de mouvement et en correspondance de points clés, permettant ainsi une génération de mouvement plus détaillée.
Plus précisément, DisPose calcule d'abord un champ de mouvement clairsemé à partir de la pose squelettique, et introduit, à partir de l'image de référence, un mode de génération de champ de mouvement dense. Cette méthode fournit non seulement des signaux de mouvement au niveau régional, mais préserve également la généralité du contrôle de pose clairsemée. Simultanément, DisPose extrait des caractéristiques de diffusion correspondant aux points clés de pose à partir de l'image de référence, puis, en calculant les correspondances de points à plusieurs échelles, transfère ces caractéristiques à la pose cible afin d'améliorer la cohérence de l'apparence.
Afin d'intégrer cette technologie innovante en douceur dans les modèles existants, les chercheurs ont également proposé une architecture ControlNet hybride de type plug-in. Cette architecture, sans modifier les paramètres des modèles existants, améliore la qualité et la cohérence des vidéos générées. Grâce à des expériences qualitatives et quantitatives approfondies, DisPose a démontré des avantages significatifs par rapport aux technologies actuelles, préfigurant les futures orientations du développement des techniques de création d'animations.
DisPose, en optimisant la manière dont les informations de pose sont utilisées, améliore l'expressivité et le contrôle de l'animation de portraits. Cette avancée est non seulement importante sur le plan de la recherche académique, mais ouvre également de nouvelles perspectives pour l'industrie de l'animation.
Lien du projet : https://lihxxx.github.io/DisPose/
Points clés :
📍 DisPose est une nouvelle technologie d'animation de portraits qui, grâce à un découplage de la guidance de la pose, permet une génération dynamique plus précise.
🎨 Cette technologie transforme les informations de pose clairsemées en guidance de champ de mouvement et en correspondance de points clés, fournissant des signaux de mouvement détaillés.
🔧 L'architecture ControlNet hybride proposée par les chercheurs permet d'améliorer efficacement la qualité et la cohérence des vidéos générées.