Lancement de Vidu 1.5, le modèle de génération vidéo de Shengshu Technology, surmontant le défi de la

Après plus de cent jours de disponibilité de Vidu, Shengshu Technology est fière d'annoncer le lancement de la nouvelle version Vidu 1.5, une avancée majeure à l'échelle mondiale, notamment en matière de compréhension des entrées diversifiées et de résolution du problème de la « cohérence ».

Le lancement de Vidu 1.5 marque l'entrée des modèles visuels dans une nouvelle ère « contextuelle », accélérant l'arrivée de l'intelligence artificielle générale (AGI). Dès son lancement mondial, Vidu disposait de la capacité de génération de cohérence des personnages, résolvant ainsi un point crucial de la génération vidéo grâce au verrouillage des caractéristiques faciales. En septembre, Vidu a été le premier au monde à lancer la fonctionnalité de « cohérence du sujet principal », étendant la cohérence faciale à la cohérence corporelle complète, et ce pour tous les sujets : animaux, objets, personnages virtuels, etc. Les avancées technologiques de Vidu se concentrent sur trois aspects : le contrôle précis des sujets complexes, la cohérence naturelle des caractéristiques faciales et des expressions dynamiques des personnages, et la cohérence multi-sujets.

Capture d'écran WeChat_20241113135537.png

Capture d'écran WeChat_20241113135531.png

Vidu 1.5 met en lumière une nouvelle « émergence intelligente » des modèles visuels, démontrant sa puissante capacité d'apprentissage contextuel. Cela signifie que les modèles visuels possèdent non seulement la capacité de comprendre et d'imaginer, mais aussi de gérer la mémoire pendant le processus de génération. Vidu 1.5 conserve son efficacité de génération inégalée, générant une vidéo en moins de 30 secondes. Fidèle à son principe d'universalité et à la philosophie de conception des LLM (grands modèles linguistiques), Vidu traite tous les problèmes comme des problèmes d'entrée et de sortie visuels, utilisant un seul transformateur pour modéliser uniformément les entrées et sorties de longueur variable, et tirant parti de la compression des données vidéo pour acquérir de l'intelligence.

Le lancement de Vidu 1.5 améliore non seulement la contrôlabilité des modèles vidéo, mais permet également, grâce à des entrées multiples et flexibles, une génération cohérente multi-angles, multi-sujets et multi-éléments. Cela marque l'émergence de l'intelligence visuelle et accélère l'arrivée de l'AGI. Vidu n'est plus seulement un générateur vidéo de haute qualité et haute efficacité, il peut également intégrer des informations contextuelles et la mémoire pendant le processus de génération, ce qui représente un « grand pas » pour l'intelligence modale visuelle. Les modèles visuels posséderont des capacités cognitives plus fortes, devenant une pièce importante du puzzle de l'AGI.

Adresse d'essai : www.vidu.studio

Actualités IA

Lancement de Vidu 1.5, le modèle de génération vidéo de Shengshu Technology, surmontant le défi de la « cohérence multi-sujets »

AIbase基地

Recommandations d'actualités IA connexes

Honneur et Alibaba collaborent dans le domaine de l'IA : Qianwen, Wanxiang, etc., sont désormais intégrés à l'entité intelligente YOYO

Honor YOYO fusionné avec le grand modèle d'Alibaba définit le prochain système d'exploitation IA

Adorable ! L'IA transforme les monuments scolaires en peluches, un effet magique qui fait sensation sur le web !

Prolifération du plagiat assisté par IA ! ByteDance : intensification de la détection par IA et des actions en justice d'ici 2025