WorldDreamer est un modèle innovant de génération vidéo qui comprend et simule la dynamique du monde en prédisant des jetons visuels masqués. Il excelle dans de nombreux domaines, notamment la synthèse image-vidéo, la génération texte-vidéo, la restauration vidéo, la stylisation vidéo et la génération action-vidéo. Ce modèle s'inspire du succès des grands modèles linguistiques, considérant la modélisation du monde comme un défi de modélisation de séquences visuelles non supervisé, réalisé en mappant les entrées visuelles à des jetons discrets et en prédisant les jetons masqués.