Aujourd'hui, Shengshu Technology de Beijing a annoncé le lancement mondial du site Web de Vidu, son modèle de génération de vidéos par IA. Vidu est un modèle qui utilise l'intelligence artificielle pour générer des vidéos à partir de texte ou d'images.
En avril dernier, Shengshu Technology et l'Université Tsinghua ont conjointement lancé « Vidu », le premier grand modèle vidéo chinois. Ceci marque une étape importante pour la Chine dans le domaine de la génération de vidéos.
« Vidu » utilise l'architecture U-ViT, une création de l'équipe, qui combine les technologies Diffusion et Transformer. Ce modèle vidéo innovant peut générer rapidement des vidéos HD 1080p d'une durée allant jusqu'à 16 secondes, tout en faisant preuve d'une imagination et d'une créativité exceptionnelles en simulant le monde physique réel. Sa capacité de génération multi-caméras et sa cohérence spatio-temporelle sont des caractéristiques remarquables de « Vidu ».
Depuis son lancement, « Vidu » a connu un succès remarquable à l'échelle mondiale. Ses performances ont atteint un niveau international de pointe et continuent de s'améliorer grâce à des itérations et optimisations constantes. Ce succès est le fruit des solides compétences de l'équipe en apprentissage automatique bayésien et en modèles multimodaux de grande taille, ainsi que de plusieurs résultats originaux.
Grâce à une compréhension approfondie de l'architecture U-ViT et à une riche expérience en ingénierie et en données, l'équipe a rapidement surmonté les défis techniques liés à la représentation et au traitement de longues vidéos, aboutissant au développement réussi du grand modèle vidéo « Vidu ». « Vidu » a obtenu des résultats significatifs en améliorant la cohérence et le dynamisme des vidéos, contribuant ainsi au progrès des technologies de traitement vidéo.
Adresse pour l'essayer : https://www.vidu.studio/