Follow-Your-Pose est un modèle de génération de vidéo à partir de texte qui utilise des informations de pose et une description textuelle pour générer des vidéos de personnages dont la pose est modifiable et contrôlable. Cette technologie présente une valeur applicative importante dans le domaine de la création de personnages numériques, en résolvant les limitations liées au manque de jeux de données complets et de modèles antérieurs de génération de vidéo. Grâce à une approche d'entraînement en deux phases, combinée à un modèle pré-entraîné de texte à image, elle permet la génération de vidéos contrôlées par la pose.