Récemment, Vidu, le premier grand modèle vidéo entièrement auto-développé en Chine, développé conjointement par Shengshu Technology et l'Université Tsinghua, a lancé la fonction de « référence d'objet principal ». Cette fonction permet une génération cohérente de n'importe quel objet principal, rendant la génération de vidéos plus stable et contrôlable. Cette fonctionnalité est actuellement accessible gratuitement aux utilisateurs.

La fonction de « référence d'objet principal » résout le problème de la cohérence des personnages dans les vidéos générées par l'IA. En téléchargeant une simple image de n'importe quel objet principal, Vidu peut verrouiller l'apparence de cet objet et, grâce à des mots descriptifs, changer de scène à volonté tout en conservant la cohérence de l'objet principal dans la vidéo générée.

Cette fonction ne se limite pas à un seul objet, mais s'applique à « n'importe quel objet principal », qu'il s'agisse de personnes, d'animaux, de produits, de personnages de dessins animés ou d'objets fictifs. Elle garantit la cohérence et le contrôle de ces objets dans la génération vidéo.

Tang Jiayu, président-directeur général de Shengshu Technology, a déclaré que la fonction de « référence d'objet principal » représente le début d'une narration IA complète, et que la création vidéo par IA entrera dans une phase plus efficace et plus flexible.

De plus, Shi Yuxiang, réalisateur de la China Media Group et artiste AIGC, a créé un court métrage d'animation intitulé « Le cadeau de l'été » et a déclaré que la fonction de « référence d'objet principal » libère de la contrainte des images statiques, générant des images plus expressives et plus libres, améliorant considérablement la cohérence de la création.

Le lancement de cette fonction marque l'entrée de la création vidéo par IA dans une nouvelle ère. À l'avenir, les recherches se poursuivront pour contrôler précisément des éléments complexes tels que l'interaction entre plusieurs objets principaux, l'uniformité du style et la stabilité des changements de scène multiples, afin de répondre à des besoins narratifs plus sophistiqués.