Animate Anyone vise à générer des vidéos de personnages à partir d'images statiques grâce à des signaux directeurs. Nous exploitons la puissance des modèles de diffusion et proposons un nouveau cadre spécialement conçu pour l'animation de personnages. Afin de préserver la cohérence des caractéristiques d'apparence complexes de l'image de référence, nous avons conçu ReferenceNet pour fusionner les caractéristiques détaillées via une attention spatiale. Pour garantir la contrôlabilité et la continuité, nous introduisons un guide de pose efficace pour diriger les mouvements du personnage et adoptons une méthode de modélisation temporelle efficace pour assurer une transition fluide entre les images vidéo. Grâce à l'extension des données d'entraînement, notre méthode permet de créer des animations pour n'importe quel personnage, obtenant des résultats exceptionnels en matière d'animation de personnages comparés aux autres méthodes image-à-vidéo. De plus, nous avons évalué notre méthode sur des benchmarks de synthèse vidéo de mode et de danse humaine, obtenant des résultats de pointe.