DiTCtrl
Explorer le contrôle de l'attention dans les transformateurs de diffusion multimodaux pour la génération de longues vidéos multi-prompts sans réglage.
Produit OrdinaireVidéoGénération de vidéoMultimodal
DiTCtrl est un modèle de génération de vidéo basé sur l'architecture du transformateur de diffusion multimodal (MM-DiT). Il se concentre sur la génération de vidéos de scènes cohérentes avec plusieurs prompts successifs sans entraînement supplémentaire. Le modèle réalise un contrôle sémantique précis et un partage de l'attention entre les différents prompts en analysant le mécanisme d'attention du MM-DiT, générant ainsi des vidéos avec des transitions fluides et un mouvement d'objets cohérent. Les principaux avantages de DiTCtrl incluent l'absence d'entraînement, la capacité de gérer les tâches de génération de vidéos multi-prompts et la capacité de présenter des effets de transition de style cinématographique. De plus, DiTCtrl fournit un nouveau benchmark, MPVBench, spécialement conçu pour évaluer les performances de la génération de vidéos multi-prompts.