Kuaishou a récemment lancé CineMaster, un nouveau framework de génération de vidéo à partir de texte doté de capacités de perception 3D, qualifié de version vidéo de ControlNet. CineMaster permet aux utilisateurs de contrôler précisément la position des objets et le mouvement de la caméra dans la vidéo générée grâce à de multiples signaux de contrôle, offrant ainsi une liberté de création sans précédent.
Le principal atout de CineMaster réside dans ses puissantes capacités de contrôle. Les utilisateurs peuvent non seulement générer des vidéos à partir d'invites textuelles traditionnelles, mais aussi les affiner grâce aux signaux de contrôle suivants :
Carte de profondeur : utilisée pour contrôler les informations de profondeur de la scène et les relations spatiales entre les objets.
Trajectoire de la caméra : permet de spécifier précisément la trajectoire de la caméra dans la vidéo, pour réaliser des effets de caméra complexes.
Étiquettes d'objets : utilisées pour marquer et contrôler la position et le comportement d'objets spécifiques dans la scène.
En combinant ces signaux de contrôle, les utilisateurs peuvent maîtriser précisément le contenu vidéo généré et créer des œuvres plus créatives et personnalisées.
Par ailleurs, Kuaishou fournit un processus d'extraction des bounding boxes 3D et des trajectoires de caméra à partir de vidéos à grande échelle, offrant ainsi un solide support de données pour l'entraînement et l'application de CineMaster.
La page du projet CineMaster est en ligne. Les utilisateurs intéressés peuvent la consulter à l'adresse cinemaster-dev.github.io/.