Aujourd'hui, Jieyue Xingchen et le groupe automobile Geely annoncent la publication en open source de deux modèles multimodaux de la série Step : Step-Video-T2V, un modèle de génération de vidéo, et Step-Audio, un modèle de traitement de la voix.

Parmi eux, le modèle de génération de vidéo Step-Video-T2V de Jieyue se situe au premier rang mondial en termes de quantité de paramètres et de performances. Ce modèle, doté de 30 milliards de paramètres, est capable de générer directement des vidéos de haute qualité de 204 images et d'une résolution de 540p, garantissant une forte densité d'informations et une grande cohérence du contenu généré. Les résultats des évaluations montrent que Step-Video-T2V excelle dans le respect des instructions, la fluidité des mouvements, la cohérence physique et l'esthétique, surpassant nettement les meilleurs modèles vidéo open source existants sur le marché.

微信截图_20250218085337.png

Actuellement, ces deux modèles sont disponibles sur l'application Yuewen, permettant aux développeurs de les tester et de fournir de précieux commentaires.

Le modèle de génération de vidéo Step-Video-T2V de Jieyue démontre des capacités exceptionnelles dans la génération de mouvements complexes, de personnages esthétiques et d'images visuelles imaginatives. Il est capable de comprendre précisément les instructions et d'aider efficacement les créateurs de vidéos à concrétiser leurs idées. Qu'il s'agisse d'un ballet élégant, d'un combat acharné de karaté, d'un match de badminton intense ou d'un plongeon à grande vitesse, Step-Video-T2V peut générer des images réalistes et conformes aux lois de la physique.

De plus, il prend en charge plusieurs types de mouvements de caméra et de changements de plans, permettant de générer des effets visuels avec des mouvements de caméra importants. Les personnages générés sont plus réalistes, vivants, riches en détails et aux expressions naturelles.

GitHub :

https://github.com/stepfun-ai/Step-Audio

Hugging Face :

https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b

Rapport technique :

https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf