Lors du salon de l'innovation IA 2024, Volcano Engine Technology Co., Ltd. a annoncé le lancement de Doubao, un nouveau modèle de génération de vidéos, dernier-né de sa famille de grands modèles.

Tan Dai, président de Volcano Engine, a déclaré que le modèle de génération de vidéos Doubao présentait plusieurs performances avancées en matière de génération de vidéos, notamment une compréhension sémantique précise, une interaction multi-actions et multi-sujets, de puissants effets dynamiques et une capacité de génération multi-caméras cohérente.

微信截图_20240924152238.png

Ce modèle est capable de comprendre et de suivre des instructions complexes, de réaliser des interactions entre plusieurs sujets et d'effectuer des transitions spectaculaires entre les mouvements importants du sujet vidéo et les plans. De plus, il maintient la cohérence lors des changements de plans, raconte une histoire complète en 10 secondes et prend en charge divers styles et rapports d'aspect, tels que le noir et blanc, l'animation 3D et la peinture chinoise.

Parallèlement, le modèle prend en charge de nombreux styles, notamment le noir et blanc, l'animation 3D, l'animation 2D et la peinture chinoise, et s'adapte à différents rapports d'aspect : 1 :1, 3 :4, 4 :3, 16 :9, 9 :16 et 21 :9, pour s'adapter aux différents terminaux et formats d'image.

Le modèle de génération de vidéos Doubao améliore non seulement la fidélité de la qualité d'image vidéo, mais permet également des transitions spectaculaires entre les mouvements importants du sujet et les plans, offrant une riche palette de mouvements de caméra : zoom, panoramique, travelling, zoom avant/arrière, suivi de cible, etc.

Le grand modèle de génération de vidéos Doubao comprend deux versions : Doubao - Génération de vidéos PixelDance et Doubao - Génération de vidéos - Seaweed.

Sur Volcano Engine, vous pouvez voir les deux versions de PixelDance et Seaweed de Doubao - Génération de vidéos.

image.png

I. Doubao - Génération de vidéos PixelDance

PixelDance V1.4 est un grand modèle de génération de vidéos à structure DiT développé par l'équipe de recherche ByteDance. Il prend en charge la génération de vidéos à partir de texte et d'images et peut générer des extraits vidéo de 10 secondes en une seule fois.

Ce modèle permet aux utilisateurs de générer des vidéos à partir de texte et d'images. Il possède une excellente capacité de compréhension sémantique et peut générer rapidement des extraits vidéo de haute qualité, applicables à la création cinématographique, à la publicité et aux médias, entre autres.

Exemples de génération avec la version PixelDance :

Compréhension sémantique précise

PixelDance V1.4 peut suivre des invites complexes, débloquant des instructions d'actions multiples et temporelles et la capacité d'interaction entre plusieurs sujets.

Invite : Un homme entre dans le champ, une femme se tourne vers lui, ils s'embrassent, les gens autour se promènent en arrière-plan.

Dynamique puissante et mouvements de caméra spectaculaires

Prend en charge un grand nombre de mouvements de caméra, permettant un contrôle flexible de l'angle de vue pour une expérience réaliste.

Génération multi-caméras cohérente

Capacité à générer en un clic des courts métrages multi-caméras narratifs, en surmontant le défi technique de la cohérence lors des changements de plans. Il peut raconter une histoire complète en 10 secondes avec plusieurs changements de plans, tout en maintenant la cohérence du sujet, du style et de l'ambiance.

Compatibilité multi-styles et multi-rapports d'aspect

La structure Transformer optimisée améliore considérablement la capacité de généralisation de la génération de vidéos, prenant en charge de nombreux styles : noir et blanc, animation 3D, animation 2D, peinture chinoise, aquarelle, gouache, etc., et six rapports d'aspect : 1 :1, 3 :4, 4 :3, 16 :9, 9 :16 et 21 :9.

image.png

II. Doubao - Génération de vidéos - Seaweed

Ce modèle prend en charge deux modes de génération de vidéos : texte vers vidéo et image vers vidéo. Cette technologie est basée sur une structure Transformer et utilise un espace latent de compression spatio-temporelle pour l'entraînement. Le modèle prend en charge nativement la génération multi-résolutions, s'adaptant aux écrans horizontaux et verticaux et pouvant s'adapter et préserver la fidélité en fonction de la résolution de l'image haute définition fournie par l'utilisateur. La sortie par défaut est une résolution de 720p, 24 ips et une durée de 5 secondes, extensible dynamiquement jusqu'à 20-30 secondes.

Exemples de génération avec la version Seaweed :

Haute fidélité, détails riches et précis

Invite : Un panda géant savoure un délicieux pot-au-feu.

Couleurs et jeux d'ombre professionnels

Dynamique fluide

Le lancement du modèle de génération de vidéos Doubao devrait stimuler l'innovation et l'efficacité dans de nombreux domaines, tels que le marketing e-commerce, l'éducation animée, le tourisme urbain et les micros-scénarios (clips musicaux, courts métrages, sketchs, etc.). Volcano Engine affirme que le lancement de ce modèle accélérera considérablement l'innovation des applications AIGC.

Volcano Engine s'engage à poursuivre la mise à niveau et l'itération des capacités du modèle, à explorer ses applications dans un plus grand nombre de contextes et à fournir aux entreprises les moyens de réaliser une intelligence artificielle dans le cloud.

Les données montrent qu'en septembre, le volume quotidien d'utilisation des jetons du grand modèle Doubao a dépassé 1,3 billion, soit une croissance de plus de 10 fois en 4 mois. En ce qui concerne le multimédia, le modèle Doubao - génération d'images à partir de texte génère quotidiennement 50 millions d'images. De plus, Doubao traite actuellement 850 000 heures de voix par jour.