Récemment, l'équipe de recherche de Skywork AI a lancé un nouveau framework de génération vidéo appelé SkyReels-A2, marquant une nouvelle étape dans la technologie de génération vidéo contrôlable. Ce framework, appelé « Elément vers Vidéo (E2V) », peut synthétiser des vidéos naturelles à partir d'invites textuelles, combinant divers éléments visuels (tels que des personnages, des objets et des arrière-plans) tout en maintenant une forte cohérence avec les images de référence.
Le cœur de SkyReels-A2 réside dans son processus complexe de traitement des données. L'équipe de recherche a conçu un pipeline complet de construction de données pour générer des triplets contenant des invites, des images de référence et des vidéos, fournissant ainsi un support de données pour l'entraînement du modèle. Son processus de génération s'effectue via deux branches : une branche de caractéristiques spatiales et une branche de caractéristiques sémantiques. La branche de caractéristiques spatiales utilise un auto-encodeur variationnel (VAE) à grain fin pour traiter chaque élément constitutif, tandis que la branche de caractéristiques sémantiques utilise l'encodeur visuel CLIP pour extraire des informations sémantiques plus profondes. Cette stratégie à deux volets garantit que les vidéos générées sont conformes aux invites textuelles et maintiennent une connexion naturelle entre les éléments.
Au-delà de la garantie de la diversité et de la haute qualité du contenu vidéo, SkyReels-A2 a également optimisé le processus d'inférence afin d'améliorer la vitesse de génération et la stabilité de la sortie. Cela permet aux utilisateurs de créer plus rapidement du contenu vidéo de qualité professionnelle. SkyReels-A2 n'est pas seulement un modèle commercial open source, mais son apparition offre également un énorme potentiel créatif pour les secteurs de la production cinématographique et du commerce électronique virtuel.
Enfin, l'équipe de recherche a également lancé un ensemble de benchmarks d'évaluation système, A2Bench, visant à évaluer de manière exhaustive la qualité des vidéos générées. Ce benchmark prend non seulement en compte les indicateurs d'évaluation automatique, mais également les évaluations subjectives des utilisateurs, reflétant ainsi fidèlement l'efficacité de la tâche E2V sous plusieurs angles.
SkyReels-A2 est sans aucun doute un outil révolutionnaire. Nous attendons avec impatience son large déploiement dans les applications créatives, aidant les créateurs de contenu à surmonter les obstacles technologiques existants et à réaliser des créations plus imaginatives.
Adresse du projet : https://top.aibase.com/tool/skyreels-a2