Tencent annonce l'open source de son nouveau framework de génération de vidéo à partir d'image : HunyuanVideo-I2V. Ce lancement, qui fait suite à la réussite de l'open source de HunyuanVideo, vise à encourager l'exploration approfondie au sein de la communauté open source.
HunyuanVideo-I2V intègre des technologies de pointe de génération vidéo, permettant de transformer des images statiques en vidéos dynamiques et offrant ainsi de nouvelles possibilités aux créateurs.
HunyuanVideo-I2V utilise un modèle linguistique multimodal pré-entraîné comme encodeur de texte, améliorant considérablement la capacité du modèle à comprendre le contenu sémantique des images d'entrée. Cela signifie que les images saisies par l'utilisateur peuvent générer des étiquettes sémantiques d'images, qui, combinées aux étiquettes potentielles de la vidéo, permettent un calcul d'attention complet plus exhaustif. De cette manière, le système maximise la synergie entre les modalités image et texte, garantissant une cohérence et un réalisme accrus des vidéos générées à partir d'images statiques.
Pour les utilisateurs souhaitant utiliser HunyuanVideo-I2V pour générer des vidéos, Tencent fournit des instructions d'installation et d'utilisation détaillées. Des exigences matérielles spécifiques sont nécessaires ; il est recommandé d'utiliser une carte graphique NVIDIA disposant d'au moins 80 Go de mémoire vidéo pour une qualité de génération optimale. Le système prend en charge la génération de vidéos jusqu'à 720p de résolution et 129 images (environ 5 secondes).
Pour aider les utilisateurs à mieux utiliser le modèle, Tencent partage également quelques conseils, tels que la concision des invites et l'inclusion des éléments principaux, notamment le sujet principal, l'action et l'arrière-plan de la vidéo.
Projet : https://github.com/Tencent/HunyuanVideo-I2V?tab=readme-ov-file