Récemment, ByteDance a annoncé le lancement d'un système d'intelligence artificielle appelé INFP, capable de donner vie à des portraits statiques en les faisant « parler » et réagir à des entrées audio. Contrairement aux technologies traditionnelles, INFP ne nécessite pas de spécifier manuellement les personnages qui parlent et qui écoutent ; le système détermine automatiquement les rôles en fonction du déroulement de la conversation.

image.png

Le processus de travail d'INFP se divise en deux étapes principales. La première, appelée « imitation de la tête basée sur le mouvement », consiste à extraire des détails vidéo en analysant les expressions faciales et les mouvements de tête des personnes lors d'une conversation. Ces données de mouvement sont ensuite converties dans un format utilisable pour l'animation ultérieure, permettant aux photos statiques de correspondre aux mouvements de la personne originale.

La deuxième étape est la « génération de mouvement guidée par l'audio ». Le système génère des schémas de mouvement naturels en fonction de l'entrée audio. L'équipe de recherche a développé un « guide de mouvement » qui, en analysant l'audio des deux interlocuteurs, crée des schémas de mouvement pour parler et écouter. Ensuite, un composant IA appelé transformateur de diffusion affine progressivement ces schémas pour générer des mouvements fluides et réalistes, parfaitement adaptés au contenu audio.

Pour entraîner efficacement le système, l'équipe de recherche a également créé un ensemble de données de conversation appelé DyConv, rassemblant plus de 200 heures de vidéos de conversations réelles. Comparé aux bases de données de conversation existantes (comme ViCo et RealTalk), DyConv présente des avantages uniques en termes d'expression des émotions et de qualité vidéo.

ByteDance affirme qu'INFP surpasse les outils existants dans plusieurs domaines clés, notamment la synchronisation des mouvements des lèvres avec la parole, la préservation des traits faciaux individuels et la création de mouvements naturels et variés. De plus, le système excelle également dans la génération de vidéos ne montrant que l'auditeur.

Bien qu'INFP ne prenne actuellement en charge que les entrées audio, l'équipe de recherche explore la possibilité d'étendre le système aux images et au texte. L'objectif futur est de pouvoir créer des animations réalistes du corps entier des personnages. Cependant, compte tenu du risque que cette technologie soit utilisée pour créer de fausses vidéos et diffuser de fausses informations, l'équipe de recherche prévoit de limiter l'accès à la technologie de base aux institutions de recherche, à la manière dont Microsoft gère son système avancé de clonage vocal.

Cette technologie fait partie de la stratégie IA plus large de ByteDance. S'appuyant sur ses applications populaires TikTok et CapCut, ByteDance dispose d'une vaste plateforme d'applications pour l'innovation en IA.

Accès au projet : https://grisoon.github.io/INFP/

Points clés :

🎤 INFP permet aux portraits statiques de « parler » grâce à l'audio, et détermine automatiquement les rôles dans une conversation.

🎥 Le système fonctionne en deux étapes : il extrait d'abord les détails du mouvement des conversations humaines, puis convertit l'audio en schémas de mouvement naturels.

📊 L'ensemble de données DyConv de ByteDance contient plus de 200 heures de vidéos de conversations de haute qualité, améliorant ainsi les performances du système.