WorldDreamer é um modelo inovador de geração de vídeo que compreende e simula a dinâmica do mundo prevendo tokens visuais mascarados. Ele se destaca em diversos aspectos, como síntese imagem-para-vídeo, geração texto-para-vídeo, reparo de vídeo, estilização de vídeo e geração ação-para-vídeo. O modelo se baseia no sucesso dos grandes modelos de linguagem, considerando a modelagem do mundo como um desafio de modelagem de sequências visuais não supervisionado, alcançado mapeando entradas visuais para tokens discretos e prevendo os tokens mascarados.