Vidu lance la fonction « Référence principale » pour résoudre les problèmes de cohérence des personnages dans les vidéos générées par l'IA

AIbase基地

Publié leActualités IA · 4 minutes de lecture · Sep 11, 2024

321

Récemment, Vidu, le premier grand modèle vidéo entièrement auto-développé en Chine, développé conjointement par Shengshu Technology et l'Université Tsinghua, a lancé la fonction de « référence d'objet principal ». Cette fonction permet une génération cohérente de n'importe quel objet principal, rendant la génération de vidéos plus stable et contrôlable. Cette fonctionnalité est actuellement accessible gratuitement aux utilisateurs.

La fonction de « référence d'objet principal » résout le problème de la cohérence des personnages dans les vidéos générées par l'IA. En téléchargeant une simple image de n'importe quel objet principal, Vidu peut verrouiller l'apparence de cet objet et, grâce à des mots descriptifs, changer de scène à volonté tout en conservant la cohérence de l'objet principal dans la vidéo générée.

Cette fonction ne se limite pas à un seul objet, mais s'applique à « n'importe quel objet principal », qu'il s'agisse de personnes, d'animaux, de produits, de personnages de dessins animés ou d'objets fictifs. Elle garantit la cohérence et le contrôle de ces objets dans la génération vidéo.

Tang Jiayu, président-directeur général de Shengshu Technology, a déclaré que la fonction de « référence d'objet principal » représente le début d'une narration IA complète, et que la création vidéo par IA entrera dans une phase plus efficace et plus flexible.

De plus, Shi Yuxiang, réalisateur de la China Media Group et artiste AIGC, a créé un court métrage d'animation intitulé « Le cadeau de l'été » et a déclaré que la fonction de « référence d'objet principal » libère de la contrainte des images statiques, générant des images plus expressives et plus libres, améliorant considérablement la cohérence de la création.

Le lancement de cette fonction marque l'entrée de la création vidéo par IA dans une nouvelle ère. À l'avenir, les recherches se poursuivront pour contrôler précisément des éléments complexes tels que l'interaction entre plusieurs objets principaux, l'uniformité du style et la stabilité des changements de scène multiples, afin de répondre à des besoins narratifs plus sophistiqués.

Huawei Ascend et Step-Video lancent un modèle multimodale open source, faisant leur entrée dans le nouveau domaine de l'IA

Récemment, la communauté Modelers a officiellement lancé Step-Video et Step-Audio, deux grands modèles multimodaux open source développés par Step-Video. Ces deux modèles sont respectivement utilisés pour la génération de vidéo et l'interaction vocale, visant à fournir aux développeurs et aux entreprises des outils IA plus performants. Step-Video, dont le nom complet est Step-Video-T2V, est un modèle de génération de vidéo open source parmi les plus grands au monde, avec un nombre de paramètres atteignant 30 milliards. Ce modèle est capable de générer directement des vidéos de 20...

Entraînement vidéo LoRA arrivé ! Ostris crée un étonnant LoRA Wan 2.1 avec seulement 20 photos

Le 9 mars 2025, Californie, États-Unis – Les modèles open source rendent la technologie texte-à-vidéo de plus en plus intéressante. Le développeur IA Ostris (@ostrisai) a récemment partagé sur X les résultats de son modèle Wan2.1LoRA entraîné avec ses propres photos. Avec seulement une vingtaine de photos et une carte graphique RTX 4090 grand public, il a réussi à générer des vidéos époustouflantes. Ce résultat démontre non seulement le potentiel des technologies open source, mais a également suscité une discussion au sein de la communauté X sur l'entraînement vidéo LoRA.

腾讯开源全新图像转视频模型HunyuanVideo-I2V

Tencent annonce la publication en open source de son nouveau framework de génération de vidéos à partir d'images : HunyuanVideo-I2V. Cette publication fait suite au succès de la mise en open source de HunyuanVideo et vise à encourager l'exploration approfondie au sein de la communauté open source. HunyuanVideo-I2V intègre des techniques de pointe de génération vidéo, permettant de transformer des images statiques en contenu vidéo dynamique, offrant ainsi de nouvelles possibilités aux créateurs. HunyuanVideo-I2V utilise un modèle pré-entraîné...

Actualités IA

Vidu lance la fonction « Référence principale » pour résoudre les problèmes de cohérence des personnages dans les vidéos générées par l'IA

AIbase基地

Recommandations d'actualités IA connexes

Huawei Ascend et Step-Video lancent un modèle multimodale open source, faisant leur entrée dans le nouveau domaine de l'IA

Entraînement vidéo LoRA arrivé ! Ostris crée un étonnant LoRA Wan 2.1 avec seulement 20 photos

Lancement d'un site Web indépendant pour Tongyi Wanxiang, le modèle vidéo IA d'Alibaba

腾讯开源全新图像转视频模型HunyuanVideo-I2V