L'équipe SkyReels de Kunlun Wanwei annonce officiellement la publication et l'open-source de SkyReels-V2, le premier modèle de génération de films de durée illimitée au monde utilisant le cadre de forçage de diffusion (Diffusion-forcing). Ce modèle réalise une optimisation collaborative en combinant un modèle linguistique multimodal de grande taille (MLLM), un pré-entraînement multi-étapes, un apprentissage par renforcement et un cadre de forçage de diffusion, marquant ainsi une nouvelle étape dans la technologie de génération de vidéos.
La publication de SkyReels-V2 vise à résoudre les défis majeurs des technologies de génération de vidéos existantes en matière de respect des invites, de qualité visuelle, de dynamique du mouvement et de coordination de la durée des vidéos. Ce modèle représente non seulement une percée technologique, mais offre également de multiples applications, notamment la génération d'histoires, la génération de vidéos à partir d'images, la fonction de caméraman expert et la génération de vidéos multi-acteurs cohérentes (SkyReels-A2). SkyReels-V2 est désormais capable de générer des vidéos de 30 et 40 secondes, avec une haute qualité de mouvement, une grande cohérence et une haute fidélité.
Les innovations technologiques clés de SkyReels-V2 incluent :
Un modèle complet de compréhension vidéo de qualité cinématographique SkyCaptioner-V1 : grâce à une méthode de représentation vidéo structurée, combinant la description générale du MLLM multimodal et le langage de plans détaillé des modèles sous-experts, il améliore considérablement la capacité de compréhension du langage des plans. Ce modèle est capable de comprendre efficacement les données vidéo et de générer des descriptions diversifiées conformes aux informations de structure d'origine.
Optimisation des préférences de mouvement : grâce à l'apprentissage par renforcement et à l'utilisation de données annotées manuellement et de données synthétiques déformées, les problèmes de distorsion dynamique et d'incohérence sont résolus. SkyReels-V2 excelle dans la dynamique du mouvement, générant des contenus vidéo fluides et réalistes.
Un cadre de forçage de diffusion efficace : en affinant les modèles de diffusion pré-entraînés, il les transforme en modèles de forçage de diffusion, améliorant ainsi considérablement l'efficacité de la génération. Cette méthode réduit non seulement les coûts de formation, mais permet également la génération efficace de longues vidéos.
Pré-entraînement progressif de la résolution et optimisation post-entraînement multi-étapes : intégrant des milliards de données provenant de jeux de données génériques, de médias auto-collectés et de bibliothèques de ressources artistiques, des méthodes d'optimisation multi-étapes garantissent que SkyReels-V2 améliore progressivement ses performances sur plusieurs aspects, même avec des ressources limitées, pour atteindre un niveau de génération vidéo cinématographique.
En termes d'évaluation des performances, SkyReels-V2 excelle dans SkyReels-Bench et V-Bench. SkyReels-Bench contient 1020 invites textuelles et évalue systématiquement quatre dimensions clés : le respect des instructions, la qualité du mouvement, la cohérence et la qualité visuelle. Dans l'évaluation SkyReels-Bench, SkyReels-V2 a réalisé des progrès significatifs dans le respect des instructions, tout en garantissant la qualité du mouvement sans sacrifier la cohérence de la vidéo. Dans l'évaluation automatisée V-Bench 1.0, SkyReels-V2 surpasse tous les modèles de comparaison, notamment HunyuanVideo-13B et Wan2.1-14B, tant en score total (83,9 %) qu'en score de qualité (84,7 %).
Les applications de SkyReels-V2 sont riches et variées, notamment :
Génération d'histoires : grâce à une méthode de fenêtre glissante, le modèle se réfère aux images précédemment générées et à l'invite textuelle lors de la génération de nouvelles images, permettant une extension temporelle et la génération de vidéos longues avec une narration cohérente.
Synthèse image-vidéo : propose deux méthodes de génération image-vidéo (I2V), notamment l'ajustement fin du modèle de diffusion texte-vidéo (T2V) et la combinaison du modèle de forçage de diffusion avec des conditions d'images.
Fonction de réalisation : grâce à un échantillonnage spécifique, une représentation équilibrée des mouvements de caméra de base et de leurs combinaisons courantes est assurée, améliorant considérablement l'effet cinématographique.
Génération élément-vidéo : basé sur le modèle de base SkyReels-V2, le programme SkyReels-A2 permet de combiner des éléments visuels arbitraires en une vidéo cohérente guidée par une invite textuelle.
L'équipe SkyReels de Kunlun Wanwei indique qu'elle continuera à promouvoir le développement de la technologie de génération de vidéos et qu'elle rendra les modèles SkyCaptioner-V1 et SkyReels-V2 entièrement open-source afin de favoriser la recherche et les applications ultérieures dans les milieux académiques et industriels. L'équipe continuera également à optimiser les performances de SkyReels-V2, à explorer de nouvelles applications et à réduire les coûts de calcul afin de permettre une utilisation plus large dans la création de contenu et la simulation virtuelle.
Adresse GitHub :
https://github.com/SkyworkAI/SkyReels-V2
Adresse de l'article :
https://arxiv.org/abs/2504.13074
Adresse du site web SkyReels :
https://www.skyreels.ai/home